深度强化学习课程文档
介绍
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
介绍

在上一单元中,我们学习了深度 Q-学习。在这种基于价值的深度强化学习算法中,我们使用深度神经网络来近似状态中每个可能动作的不同 Q 值。
自本课程开始以来,我们只研究了基于价值的方法,其中我们估计一个价值函数,作为寻找最优策略的中间步骤。

在基于价值的方法中,策略 (π) 的存在仅仅是因为动作价值估计,因为策略只是一个函数(例如,贪婪策略),它将选择在给定状态下具有最高价值的动作。
使用基于策略的方法,我们希望直接优化策略,而无需学习价值函数的中间步骤。
所以今天,我们将学习基于策略的方法,并研究这些方法的子集,称为策略梯度。然后,我们将使用 PyTorch 从头开始实现我们的第一个策略梯度算法,称为 Monte Carlo Reinforce。然后,我们将使用 CartPole-v1 和 PixelCopter 环境测试其稳健性。
然后,您将能够迭代并改进此实现,以适应更高级的环境。

让我们开始吧!
< > 在 GitHub 上更新