深度强化学习课程文档

强化学习框架

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始入门

强化学习框架

强化学习过程

The RL process
强化学习过程:状态、动作、奖励和下一个状态的循环
来源: Reinforcement Learning: An Introduction, Richard Sutton and Andrew G. Barto

为了理解强化学习过程,让我们想象一个智能体正在学习玩平台游戏

The RL process
  • 我们的智能体从环境中接收状态 S0S_0 — 我们接收到游戏的第一帧(环境)。
  • 基于该状态S0S_0, 智能体采取动作A0A_0 — 我们的智能体将向右移动。
  • 环境进入一个新的 状态S1S_1 — 新的帧。
  • 环境给予智能体一些奖励R1R_1 — 我们没有死(正向奖励 +1)

这个强化学习循环输出一个状态、动作、奖励和下一个状态的序列。

State, Action, Reward, Next State

智能体的目标是最大化其累积奖励,称为期望回报。

奖励假设:强化学习的核心思想

⇒ 为什么智能体的目标是最大化期望回报?

因为强化学习是基于奖励假设的,即所有目标都可以描述为最大化期望回报(期望累积奖励)。

这就是为什么在强化学习中,为了获得最佳行为,我们的目标是学习采取能够最大化期望累积奖励的动作。

马尔可夫性质

在论文中,你会看到强化学习过程被称为马尔可夫决策过程(MDP)。

我们将在后续单元中再次讨论马尔可夫性质。但如果你今天需要记住关于它的一些内容,那就是:马尔可夫性质意味着我们的智能体只需要当前状态来决定要采取什么动作,而不需要之前所有状态和动作的历史记录

观测/状态空间

观测/状态是我们的智能体从环境中获得的信息。 在视频游戏的情况下,它可以是一帧(屏幕截图)。在交易智能体的情况下,它可以是某只股票的价值等等。

观测状态 之间存在区别,然而

  • 状态 s:是 对世界状态的完整描述(没有隐藏信息)。在完全可观测的环境中。
Chess
在象棋游戏中,我们从环境中接收到一个状态,因为我们可以访问整个棋盘信息。

在象棋游戏中,我们可以访问整个棋盘信息,因此我们从环境中接收到一个状态。换句话说,环境是完全可观测的。

  • 观测 o:是 对状态的部分描述。 在部分可观测的环境中。
Mario
在超级马里奥兄弟中,我们只看到靠近玩家的部分关卡,因此我们接收到一个观测。

在超级马里奥兄弟中,我们只看到靠近玩家的部分关卡,因此我们接收到一个观测。

在超级马里奥兄弟中,我们处于部分可观测的环境中。我们接收到一个观测,因为我们只看到部分关卡。

在本课程中,我们使用术语“状态”来同时表示状态和观测,但我们将在实现中区分它们。

总结一下

Obs space recap

动作空间

动作空间是环境中所有可能动作的集合。

动作可以来自离散连续空间

  • 离散空间:可能的动作数量是有限的
Mario
在超级马里奥兄弟中,我们只有 4 个可能的动作:左、右、上(跳跃)和下(蹲伏)。

同样,在超级马里奥兄弟中,我们有一组有限的动作,因为我们只有 4 个方向。

  • 连续空间:可能的动作数量是无限的
Self Driving Car
自动驾驶汽车智能体有无限数量的可能动作,因为它可以左转 20°,21.1°,21.2°,鸣喇叭,右转 20°……

总结一下

Action space recap

考虑到这些信息至关重要,因为它将在未来选择强化学习算法时具有重要意义。

奖励和折扣

奖励在强化学习中至关重要,因为它是智能体的唯一反馈。 多亏了它,我们的智能体才知道采取的行动是好还是不好。

时间步 t 的累积奖励可以写成

Rewards
累积奖励等于序列中所有奖励的总和。

这等同于

Rewards
累积奖励 = rt+1 (rt+k+1 = rt+0+1 = rt+1)+ rt+2 (rt+k+1 = rt+1+1 = rt+2) + ...

然而,在现实中,我们不能像这样简单地将它们相加。 更早到来的奖励(在游戏开始时)更有可能发生,因为它们比长期未来的奖励更可预测。

假设你的智能体是一只小老鼠,每次时间步可以移动一个瓷砖,而你的对手是猫(也可以移动)。 老鼠的目标是在被猫吃掉之前吃掉尽可能多的奶酪。

Rewards

正如我们在图表中看到的,吃掉我们附近的奶酪比吃掉靠近猫的奶酪更有可能(我们离猫越近,就越危险)。

因此,靠近猫的奖励,即使它更大(更多奶酪),也会被更多地折扣,因为我们不太确定我们是否能够吃到它。

为了折扣奖励,我们这样做

  1. 我们定义一个称为 gamma 的折扣率。 它必须介于 0 和 1 之间。 大多数时候在 0.95 和 0.99 之间。
  • gamma 越大,折扣越小。 这意味着我们的智能体更关心长期奖励。
  • 另一方面,gamma 越小,折扣越大。 这意味着我们的智能体更关心短期奖励(最近的奶酪)。

2. 然后,每个奖励将按 gamma 的时间步指数进行折扣。 随着时间步的增加,猫越来越接近我们,因此未来的奖励越来越不可能发生。

我们的折扣期望累积奖励是

奖励 < > 在 GitHub 上更新