简介

在第4单元中，我们学习了第一个基于策略的算法，称为 Reinforce。

在基于策略的方法中，我们旨在直接优化策略，而不使用价值函数。更准确地说，Reinforce是基于策略的方法的一个子类，称为策略梯度方法。这个子类通过使用梯度上升估计最优策略的权重来直接优化策略。

我们看到Reinforce表现良好。然而，由于我们使用蒙特卡罗采样来估计回报（我们使用整个回合来计算回报），策略梯度估计中存在显著的方差。

请记住，策略梯度估计是回报最陡峭增加的方向。换句话说，它是如何更新我们的策略权重，以便导致良好回报的动作有更高的被采取的概率。蒙特卡罗方差，我们将在本单元中进一步研究它，导致训练速度变慢，因为我们需要大量的样本来缓解它。

所以今天我们将学习Actor-Critic方法，这是一种结合了基于价值和基于策略方法的混合架构，通过使用以下方式减少方差来帮助稳定训练：

我们将研究其中一种混合方法，优势Actor Critic (A2C)，并使用Stable-Baselines3在机器人环境中训练我们的智能体。我们将训练

听起来很激动人心？让我们开始吧！

深度强化学习课程