深度强化学习课程文档
PPO背后的直觉
加入 Hugging Face 社区
并获得增强的文档体验
开始
PPO背后的直觉
近端策略优化 (PPO) 的思想是,我们希望通过限制在每个训练周期对策略所做的更改来提高策略的训练稳定性:我们希望避免策略更新幅度过大。
原因有二
- 经验表明,训练期间较小的策略更新更可能收敛到最优解。
- 策略更新中过大的步幅可能导致“跌落悬崖”(获得糟糕的策略),并花费很长时间甚至没有恢复的可能性。

因此,使用 PPO,我们保守地更新策略。为此,我们需要通过计算当前策略与先前策略之间的比率来衡量当前策略相对于先前策略的变化程度。并且我们将此比率裁剪到一个范围,这意味着我们消除了当前策略偏离旧策略太远的动机(因此称为近端策略)。
< > 在 GitHub 上更新