深度强化学习课程文档

强化学习框架

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

强化学习框架

强化学习过程

The RL process
强化学习过程:状态、动作、奖励和下一个状态的循环
来源:《强化学习:导论》,Richard Sutton 和 Andrew G. Barto

为了理解强化学习过程,让我们想象一个智能体学习玩一个平台游戏

The RL process
  • 我们的智能体从环境接收到状态S0S_0 — 我们接收到游戏的第一个画面(环境)。
  • 基于这个状态S0S_0智能体采取行动A0A_0 — 我们的智能体将向右移动。
  • 环境进入一个状态S1S_1 — 新的画面。
  • 环境给智能体一些奖励R1R_1 — 我们没有死(正奖励 +1)

这个强化学习循环输出一系列的状态、行动、奖励和下一个状态。

State, Action, Reward, Next State

智能体的目标是最大化其累积奖励,称为预期回报。

奖励假设:强化学习的核心思想

⇒ 为什么智能体的目标是最大化预期回报?

因为强化学习基于奖励假设,即所有目标都可以描述为预期回报(预期累积奖励)的最大化

这就是为什么在强化学习中,为了拥有最佳行为,我们旨在学习采取能够最大化预期累积奖励的行动。

马尔可夫性质

在论文中,您会看到强化学习过程被称为马尔可夫决策过程(MDP)。

我们将在后续单元中再次讨论马尔可夫性质。但如果您今天需要记住它的一些东西,那就是:马尔可夫性质意味着我们的智能体只需要当前状态来决定采取什么行动,而不需要所有过去状态和行动的历史

观测/状态空间

观测/状态是我们的智能体从环境中获取的信息。在视频游戏的情况下,它可以是一个画面(截图)。在交易智能体的情况下,它可以是某种股票的价值等。

然而,观察和状态之间需要区分开来:

  • 状态 s:是对世界状态的完整描述(没有隐藏信息)。在完全可观察的环境中。
Chess
在国际象棋游戏中,我们从环境接收到一个状态,因为我们可以访问整个棋盘信息。

在国际象棋游戏中,我们可以访问整个棋盘信息,因此我们从环境接收到一个状态。换句话说,环境是完全可观察的。

  • 观测 o:是对状态的部分描述。在部分可观察的环境中。
Mario
在《超级马里奥兄弟》中,我们只能看到玩家附近的关卡部分,所以我们接收到一个观测。

在《超级马里奥兄弟》中,我们只能看到玩家附近的关卡部分,所以我们接收到一个观测。

在《超级马里奥兄弟》中,我们处于一个部分可观察的环境中。我们接收到一个观测,因为我们只能看到关卡的一部分。

在本课程中,我们使用术语“状态”来表示状态和观测,但在实现中我们会加以区分。

总结一下

Obs space recap

行动空间

行动空间是环境中所有可能的行动的集合。

行动可以来自离散空间连续空间

  • 离散空间:可能的行动数量是有限的
Mario
在《超级马里奥兄弟》中,我们只有 4 种可能的行动:左、右、上(跳跃)和下(蹲伏)。

同样,在《超级马里奥兄弟》中,我们有一个有限的行动集,因为我们只有 4 个方向。

  • 连续空间:可能的行动数量是无限的
Self Driving Car
自动驾驶汽车智能体有无限种可能的行动,因为它可以左转 20°、21.1°、21.2°,按喇叭,右转 20°……

总结一下

Action space recap

考虑这些信息至关重要,因为它在未来选择强化学习算法时具有重要意义。

奖励和折扣

奖励在强化学习中至关重要,因为它是智能体的唯一反馈。多亏了它,我们的智能体才知道所采取的行动是否正确。

每个时间步t的累积奖励可以写为:

Rewards
累积奖励等于序列中所有奖励的总和。

这相当于

Rewards
累积奖励 = rt+1 (rt+k+1 = rt+0+1 = rt+1) + rt+2 (rt+k+1 = rt+1+1 = rt+2) + ...

然而,在现实中,我们不能就这样把它们加起来。较早(游戏开始时)获得的奖励更有可能发生,因为它们比长期未来的奖励更可预测。

假设你的智能体是一只小老鼠,它每走一步可以移动一格,你的对手是猫(它也可以移动)。老鼠的目标是在被猫吃掉之前吃掉最大量的奶酪。

Rewards

正如我们在图中所看到的,吃掉附近的奶酪比吃掉猫附近的奶酪更有可能(我们离猫越近,就越危险)。

因此,猫附近的奖励,即使它更大(更多的奶酪),也会被更多地折扣,因为我们不确定是否能吃到它。

为了折扣奖励,我们这样做:

  1. 我们定义一个折扣率,称为 gamma。它必须介于 0 和 1 之间。大多数情况下介于0.95 和 0.99之间。
  • gamma 越大,折扣越小。这意味着我们的智能体更关心长期奖励。
  • 另一方面,gamma 越小,折扣越大。这意味着我们的智能体更关心短期奖励(最近的奶酪)。

2. 然后,每个奖励将以时间步数的 gamma 指数进行折扣。随着时间步的增加,猫离我们越来越近,因此未来奖励发生的可能性越来越小。

我们折扣后的预期累积奖励是

奖励 < > 在 GitHub 上更新