简介
在上一单元中,我们学习了深度 Q 学习。在这个基于值的深度强化学习算法中,我们**使用深度神经网络来近似每个状态下每个可能动作的不同 Q 值**。
从课程开始,我们只学习了基于值的方法,**其中我们将价值函数作为找到最优策略的中间步骤进行估计**。
在基于值的方法中,策略**(π) 仅仅因为动作值估计而存在,因为策略只是一个函数**(例如,贪婪策略),它将在给定状态下选择具有最高值的动作。
使用基于策略的方法,我们希望直接优化策略**而无需学习价值函数作为中间步骤**。
因此,今天**我们将学习基于策略的方法,并研究这些方法中称为策略梯度的一个子集**。然后,我们将使用 PyTorch 从头开始实现我们的第一个策略梯度算法,称为蒙特卡洛**增强**。然后,我们将使用 CartPole-v1 和 PixelCopter 环境测试其鲁棒性。
然后,您将能够迭代和改进此实现以用于更高级的环境。
让我们开始吧!
< > 更新 在 GitHub 上