深度强化学习课程文档
介绍
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
介绍

在单元 6 中,我们学习了优势 Actor-Critic (A2C),这是一种混合架构,结合了基于价值和基于策略的方法,通过以下方式帮助稳定训练,减少方差:
- 一个 Actor,控制我们的智能体的行为方式(基于策略的方法)。
- 一个 Critic,衡量所采取的行动有多好(基于价值的方法)。
今天我们将学习近端策略优化 (PPO),这是一种架构,通过避免过大的策略更新来提高智能体训练的稳定性。为此,我们使用一个比率来指示当前策略和旧策略之间的差异,并将此比率裁剪到特定范围 .
这样做将确保我们的策略更新不会太大,并且训练会更加稳定。
本单元分为两个部分
- 在第一部分中,你将学习 PPO 背后的理论,并使用 CleanRL 实现从头开始编写你的 PPO 智能体代码。为了测试其鲁棒性,你将使用 LunarLander-v2。LunarLander-v2 是你开始本课程时使用的第一个环境。那时,你不知道 PPO 是如何工作的,而现在,你可以从头开始编写代码并训练它。这有多不可思议 🤩。
- 在第二部分中,我们将通过使用 Sample-Factory 更深入地研究 PPO 优化,并训练一个玩 vizdoom(Doom 的开源版本)的智能体。

听起来很激动人心?让我们开始吧!🚀
< > 在 GitHub 上更新