介绍

在上一单元中，我们学习了深度 Q 学习。在这个基于价值的深度强化学习算法中，我们使用深度神经网络来近似某个状态下每个可能动作的不同 Q 值。

从课程开始以来，我们只研究了基于价值的方法，这些方法将估算价值函数作为找到最优策略的中间步骤。

在基于价值的方法中，策略 (π) 之所以存在，仅仅是因为动作价值的估计，因为策略只是一个函数（例如，贪婪策略），它会根据给定状态选择价值最高的动作。

使用基于策略的方法，我们希望直接优化策略，而不需要学习价值函数作为中间步骤。

因此，今天，我们将学习基于策略的方法，并研究这些方法的一个子集，称为策略梯度。然后我们将使用 PyTorch 从头开始实现第一个策略梯度算法，即蒙特卡洛 Reinforce。之后，我们将使用 CartPole-v1 和 PixelCopter 环境测试其鲁棒性。

然后你将能够迭代和改进这个实现，以适应更高级的环境。

让我们开始吧！

深度强化学习课程