深度强化学习课程文档

PPO 背后的直觉

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

PPO 背后的直觉

近端策略优化 (PPO) 的想法是,我们希望通过限制在每个训练周期对策略进行的更改来提高策略的训练稳定性:我们希望避免策略更新过大。

原因有两点:

  • 根据经验,在训练过程中较小的策略更新更有可能收敛到最优解。
  • 策略更新中过大的步长可能导致“跌落悬崖”(得到一个糟糕的策略),并且需要很长时间甚至无法恢复。
Policy Update cliff
采用较小的策略更新来提高训练稳定性
修改自 RL — Proximal Policy Optimization (PPO) Jonathan Hui 解释

因此,使用 PPO 时,我们保守地更新策略。为此,我们需要通过计算当前策略与旧策略之间的比率来衡量当前策略与旧策略相比改变了多少。我们将此比率截断在一个范围内[1ϵ,1+ϵ] [1 - \epsilon, 1 + \epsilon] ,这意味着我们消除了当前策略离旧策略过远的动力(因此称为近端策略)。

< > 在 GitHub 上更新