介绍

在单元 6 中，我们学习了优势 Actor-Critic (A2C)，这是一种混合架构，结合了基于价值和基于策略的方法，通过以下方式帮助稳定训练，减少方差：

今天我们将学习近端策略优化 (PPO)，这是一种架构，通过避免过大的策略更新来提高智能体训练的稳定性。为此，我们使用一个比率来指示当前策略和旧策略之间的差异，并将此比率裁剪到特定范围 $[1 - \epsilon, 1 + \epsilon]$ .

这样做将确保我们的策略更新不会太大，并且训练会更加稳定。

本单元分为两个部分

在第一部分中，你将学习 PPO 背后的理论，并使用 CleanRL 实现从头开始编写你的 PPO 智能体代码。为了测试其鲁棒性，你将使用 LunarLander-v2。LunarLander-v2 是你开始本课程时使用的第一个环境。那时，你不知道 PPO 是如何工作的，而现在，你可以从头开始编写代码并训练它。这有多不可思议 🤩。
在第二部分中，我们将通过使用 Sample-Factory 更深入地研究 PPO 优化，并训练一个玩 vizdoom（Doom 的开源版本）的智能体。

听起来很激动人心？让我们开始吧！🚀

深度强化学习课程