深度强化学习课程文档
引言
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
简介

在第4单元中,我们学习了第一个基于策略的算法,称为 Reinforce。
在基于策略的方法中,我们旨在直接优化策略,而不使用价值函数。更准确地说,Reinforce是基于策略的方法的一个子类,称为策略梯度方法。这个子类通过使用梯度上升估计最优策略的权重来直接优化策略。
我们看到Reinforce表现良好。然而,由于我们使用蒙特卡罗采样来估计回报(我们使用整个回合来计算回报),策略梯度估计中存在显著的方差。
请记住,策略梯度估计是回报最陡峭增加的方向。换句话说,它是如何更新我们的策略权重,以便导致良好回报的动作有更高的被采取的概率。蒙特卡罗方差,我们将在本单元中进一步研究它,导致训练速度变慢,因为我们需要大量的样本来缓解它。
所以今天我们将学习Actor-Critic方法,这是一种结合了基于价值和基于策略方法的混合架构,通过使用以下方式减少方差来帮助稳定训练:
- Actor 控制我们的智能体如何行动(基于策略的方法)
- Critic 衡量所采取行动的好坏(基于价值的方法)
我们将研究其中一种混合方法,优势Actor Critic (A2C),并使用Stable-Baselines3在机器人环境中训练我们的智能体。我们将训练
- 一个机械臂🦾移动到正确的位置。
听起来很激动人心?让我们开始吧!
< > 在 GitHub 上更新