简介
在单元 6 中,我们学习了优势 Actor Critic (A2C),这是一种结合了基于值和基于策略的方法的混合架构,通过以下方式帮助稳定训练:
- Actor(行动者) 控制**我们的智能体如何行动**(基于策略的方法)。
- Critic(评价者) 衡量**采取的行动有多好**(基于值的方法)。
今天我们将学习近端策略优化 (PPO),这是一种架构,它通过避免过大的策略更新来提高我们智能体的训练稳定性。为此,我们使用一个比率来指示当前策略和旧策略之间的差异,并将此比率裁剪到特定范围 .
这样做将确保**我们的策略更新不会过大,并且训练更加稳定。**
本单元分为两个部分
- 在第一部分中,您将学习 PPO 背后的理论,并使用CleanRL 实现从头开始编写您的 PPO 智能体。为了测试其鲁棒性,您将使用 LunarLander-v2。LunarLander-v2 **是您开始本课程时使用的第一个环境**。当时,您不知道 PPO 的工作原理,现在,**您可以从头开始编写代码并进行训练。这太不可思议了🤩**。
- 在第二部分中,我们将深入研究 PPO 优化,方法是使用Sample-Factory 并训练一个玩 Doom(Doom 的开源版本)的智能体。
听起来激动人心吗?让我们开始吧!🚀
< > 在 GitHub 上更新