深度强化学习课程文档

引言

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

简介

Unit 8

在第六单元中,我们学习了 Advantage Actor Critic (A2C),这是一种结合了基于价值和基于策略方法的混合架构,通过减少方差来稳定训练,它包括:

  • 一个 Actor,控制我们的智能体如何行动(基于策略的方法)。
  • 一个 Critic,衡量所采取行动的好坏(基于价值的方法)。

今天我们将学习近端策略优化(PPO),这是一种通过避免过大的策略更新来提高智能体训练稳定性的架构。为此,我们使用一个比率来表示当前策略和旧策略之间的差异,并将这个比率截断到特定范围[1ϵ,1+ϵ] [1 - \epsilon, 1 + \epsilon] .

这样做将确保我们的策略更新不会过大,从而使训练更加稳定。

本单元分为两部分

  • 在第一部分中,你将学习 PPO 的理论,并使用 CleanRL 实现从头开始编写你的 PPO 智能体。为了测试其鲁棒性,你将使用 LunarLander-v2。LunarLander-v2 是你开始本课程时使用的第一个环境。那时你还不知道 PPO 如何工作,现在,你已经可以从头开始编写并训练它。这真是太棒了 🤩
  • 在第二部分中,我们将通过使用 Sample-Factory 深入研究 PPO 优化,并训练一个玩 Vizdoom(Doom 的开源版本)的智能体。
Environment
这些是你将用来训练智能体的环境:VizDoom 环境

听起来很激动人心?让我们开始吧!🚀

< > 在 GitHub 上更新