深度强化学习课程文档
引言
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
简介

在第六单元中,我们学习了 Advantage Actor Critic (A2C),这是一种结合了基于价值和基于策略方法的混合架构,通过减少方差来稳定训练,它包括:
- 一个 Actor,控制我们的智能体如何行动(基于策略的方法)。
- 一个 Critic,衡量所采取行动的好坏(基于价值的方法)。
今天我们将学习近端策略优化(PPO),这是一种通过避免过大的策略更新来提高智能体训练稳定性的架构。为此,我们使用一个比率来表示当前策略和旧策略之间的差异,并将这个比率截断到特定范围 .
这样做将确保我们的策略更新不会过大,从而使训练更加稳定。
本单元分为两部分
- 在第一部分中,你将学习 PPO 的理论,并使用 CleanRL 实现从头开始编写你的 PPO 智能体。为了测试其鲁棒性,你将使用 LunarLander-v2。LunarLander-v2 是你开始本课程时使用的第一个环境。那时你还不知道 PPO 如何工作,现在,你已经可以从头开始编写并训练它。这真是太棒了 🤩。
- 在第二部分中,我们将通过使用 Sample-Factory 深入研究 PPO 优化,并训练一个玩 Vizdoom(Doom 的开源版本)的智能体。

听起来很激动人心?让我们开始吧!🚀
< > 在 GitHub 上更新