深度强化学习课程文档

介绍

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

介绍

Thumbnail

在单元 4 中,我们学习了我们的第一个基于策略的算法,名为 Reinforce

在基于策略的方法中,我们的目标是直接优化策略,而无需使用价值函数。更准确地说,Reinforce 是 基于策略的方法 的一个子类,称为 策略梯度方法。这个子类通过使用梯度上升估计最优策略的权重来直接优化策略。

我们看到 Reinforce 运行良好。然而,因为我们使用蒙特卡洛采样来估计回报(我们使用整个 episode 来计算回报),所以我们在策略梯度估计中存在显着的方差

请记住,策略梯度估计是回报增加最快的方向。换句话说,如何更新我们的策略权重,以便导致良好回报的动作有更高的概率被采取。蒙特卡洛方差,我们将在本单元中进一步研究,导致训练速度变慢,因为我们需要大量样本来缓解它

所以今天我们将学习 Actor-Critic 方法,这是一种混合架构,结合了基于价值和基于策略的方法,通过使用以下方式减少方差来帮助稳定训练

  • 一个 Actor,它控制我们的智能体的行为方式(基于策略的方法)
  • 一个 Critic,它衡量所采取的行动有多好(基于价值的方法)

我们将研究这些混合方法之一,Advantage Actor Critic (A2C),并使用 Stable-Baselines3 在机器人环境中训练我们的智能体。我们将训练

  • 一个机械臂 🦾 移动到正确的位置。

听起来很激动人心?让我们开始吧!

< > GitHub 上更新