深度强化学习课程文档
什么是强化学习(RL)?简要回顾
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
什么是强化学习(RL)?简要回顾
在强化学习中,我们构建一个能够做出明智决策的智能体。例如,一个学习玩视频游戏的智能体,或者一个通过决定购买哪些股票以及何时出售来最大化其收益的交易智能体。

为了做出智能决策,我们的智能体将通过试错与环境互动并接收奖励(正向或负向)作为独特的反馈来学习。
其目标是最大化其预期累积奖励(由于奖励假说)。
智能体的决策过程称为策略 π:给定一个状态,策略将输出一个动作或一个动作的概率分布。也就是说,给定对环境的观察,策略将提供智能体应该采取的动作(或每个动作的多个概率)。

我们的目标是找到一个最优策略 π*,即能带来最佳预期累积奖励的策略。
为了找到这个最优策略(从而解决强化学习问题),主要有两种强化学习方法:
- 基于策略的方法:直接训练策略以学习给定状态下应采取的动作。
- 基于价值的方法:训练一个价值函数来学习哪个状态更有价值,并使用这个价值函数来采取导致该状态的动作。

在本单元中,我们将深入探讨基于价值的方法。
< > 在 GitHub 上更新