深度强化学习课程文档

引言

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

引言

Thumbnail

在单元 4 中,我们学习了第一个基于策略的算法,称为 Reinforce

在基于策略的方法中,我们的目标是直接优化策略,而无需使用价值函数。更准确地说,Reinforce 是 基于策略的方法 的一个子类,称为 策略梯度方法。此子类通过 使用梯度上升估计最佳策略的权重 来直接优化策略。

我们发现 Reinforce 运行良好。然而,由于我们使用蒙特卡洛采样来估计回报(我们使用整个情节来计算回报),我们在策略梯度估计中存在显著的方差

请记住,策略梯度估计是 回报急剧增加的方向。换句话说,如何更新策略权重,以便导致良好回报的动作更有可能被执行。蒙特卡洛方差,我们将在此单元中进一步研究,会导致训练速度变慢,因为我们需要大量样本来减轻它

所以今天我们将学习 Actor-Critic 方法,这是一种混合架构,结合了基于价值的方法和基于策略的方法,它通过使用以下方法来帮助稳定训练,从而减少方差

  • 一个 Actor 控制着 我们的智能体如何行动(基于策略的方法)
  • 一个 Critic 测量 执行的动作有多好(基于价值的方法)

我们将研究这些混合方法之一,优势 Actor Critic (A2C),并在机器人环境中使用 Stable-Baselines3 训练我们的智能体。我们将训练

  • 一个机械臂 🦾 移动到正确的位置。

听起来很激动吧?让我们开始吧!

< > 更新 在 GitHub 上