深度强化学习课程文档

PPO 背后的直觉

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始

PPO 背后的直觉

近端策略优化 (PPO) 的想法是,我们希望通过限制每次训练时期对策略进行的更改来提高策略训练的稳定性:**我们希望避免策略更新过大。**

有两个原因

  • 我们从经验上知道,在训练期间较小的策略更新**更有可能收敛到最优解。**
  • 策略更新的步骤过大可能会导致“跌落悬崖”(获得糟糕的策略)**并需要很长时间甚至无法恢复。**
Policy Update cliff
进行较小的策略更新以提高训练稳定性
来自 RL 的修改版本 - 近端策略优化 (PPO) 由 Jonathan Hui 解释

因此,在 PPO 中,我们保守地更新策略。为此,我们需要使用当前策略和前一策略之间的比率计算来衡量当前策略与前一策略相比发生了多少变化。然后,我们将此比率剪裁到一个范围内[1ϵ,1+ϵ] [1 - \epsilon, 1 + \epsilon] ,这意味着我们消除了当前策略偏离旧策略过远的动机(因此称为近端策略)。

< > 更新 在 GitHub 上