深度强化学习课程文档

简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

简介

Unit 8

在单元 6 中,我们学习了优势 Actor Critic (A2C),这是一种结合了基于值和基于策略的方法的混合架构,通过以下方式帮助稳定训练:

  • Actor(行动者) 控制**我们的智能体如何行动**(基于策略的方法)。
  • Critic(评价者) 衡量**采取的行动有多好**(基于值的方法)。

今天我们将学习近端策略优化 (PPO),这是一种架构,它通过避免过大的策略更新来提高我们智能体的训练稳定性。为此,我们使用一个比率来指示当前策略和旧策略之间的差异,并将此比率裁剪到特定范围[1ϵ,1+ϵ] [1 - \epsilon, 1 + \epsilon] .

这样做将确保**我们的策略更新不会过大,并且训练更加稳定。**

本单元分为两个部分

  • 在第一部分中,您将学习 PPO 背后的理论,并使用CleanRL 实现从头开始编写您的 PPO 智能体。为了测试其鲁棒性,您将使用 LunarLander-v2。LunarLander-v2 **是您开始本课程时使用的第一个环境**。当时,您不知道 PPO 的工作原理,现在,**您可以从头开始编写代码并进行训练。这太不可思议了🤩**。
  • 在第二部分中,我们将深入研究 PPO 优化,方法是使用Sample-Factory 并训练一个玩 Doom(Doom 的开源版本)的智能体。
Environment
以下是在这些环境中训练智能体的环境:VizDoom 环境

听起来激动人心吗?让我们开始吧!🚀

< > 在 GitHub 上更新