PPO 背后的直觉

近端策略优化 (PPO) 的想法是，我们希望通过限制在每个训练周期对策略进行的更改来提高策略的训练稳定性：我们希望避免策略更新过大。

原因有两点：

根据经验，在训练过程中较小的策略更新更有可能收敛到最优解。
策略更新中过大的步长可能导致“跌落悬崖”（得到一个糟糕的策略），并且需要很长时间甚至无法恢复。

因此，使用 PPO 时，我们保守地更新策略。为此，我们需要通过计算当前策略与旧策略之间的比率来衡量当前策略与旧策略相比改变了多少。我们将此比率截断在一个范围内 $[1 - \epsilon, 1 + \epsilon]$ ，这意味着我们消除了当前策略离旧策略过远的动力（因此称为近端策略）。

< > 在 GitHub 上更新

深度强化学习课程

PPO 背后的直觉