引言
在单元 4 中,我们学习了第一个基于策略的算法,称为 Reinforce。
在基于策略的方法中,我们的目标是直接优化策略,而无需使用价值函数。更准确地说,Reinforce 是 基于策略的方法 的一个子类,称为 策略梯度方法。此子类通过 使用梯度上升估计最佳策略的权重 来直接优化策略。
我们发现 Reinforce 运行良好。然而,由于我们使用蒙特卡洛采样来估计回报(我们使用整个情节来计算回报),我们在策略梯度估计中存在显著的方差。
请记住,策略梯度估计是 回报急剧增加的方向。换句话说,如何更新策略权重,以便导致良好回报的动作更有可能被执行。蒙特卡洛方差,我们将在此单元中进一步研究,会导致训练速度变慢,因为我们需要大量样本来减轻它。
所以今天我们将学习 Actor-Critic 方法,这是一种混合架构,结合了基于价值的方法和基于策略的方法,它通过使用以下方法来帮助稳定训练,从而减少方差
- 一个 Actor 控制着 我们的智能体如何行动(基于策略的方法)
- 一个 Critic 测量 执行的动作有多好(基于价值的方法)
我们将研究这些混合方法之一,优势 Actor Critic (A2C),并在机器人环境中使用 Stable-Baselines3 训练我们的智能体。我们将训练
- 一个机械臂 🦾 移动到正确的位置。
听起来很激动吧?让我们开始吧!
< > 更新 在 GitHub 上