深度强化学习课程文档

引言

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

介绍

thumbnail

在上一单元中,我们学习了深度 Q 学习。在这个基于价值的深度强化学习算法中,我们使用深度神经网络来近似某个状态下每个可能动作的不同 Q 值。

从课程开始以来,我们只研究了基于价值的方法,这些方法将估算价值函数作为找到最优策略的中间步骤。

Link value policy

在基于价值的方法中,策略 (π) 之所以存在,仅仅是因为动作价值的估计,因为策略只是一个函数(例如,贪婪策略),它会根据给定状态选择价值最高的动作。

使用基于策略的方法,我们希望直接优化策略,而不需要学习价值函数作为中间步骤。

因此,今天,我们将学习基于策略的方法,并研究这些方法的一个子集,称为策略梯度。然后我们将使用 PyTorch 从头开始实现第一个策略梯度算法,即蒙特卡洛 Reinforce。之后,我们将使用 CartPole-v1 和 PixelCopter 环境测试其鲁棒性。

然后你将能够迭代和改进这个实现,以适应更高级的环境。

Environments

让我们开始吧!

< > 在 GitHub 上更新