深度强化学习课程文档

深度Q学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

深度Q学习

Unit 3 thumbnail

在上一单元中,我们学习了第一个强化学习算法:Q学习,并从头开始实现,在FrozenLake-v1 ☃️和Taxi-v3 🚕两个环境中进行了训练。

我们用这个简单的算法取得了优异的成绩,但这些环境相对简单,因为状态空间是离散且很小(FrozenLake-v1有16个不同的状态,Taxi-v3有500个)。相比之下,雅达利游戏中的状态空间可以包含10910^{9}101110^{11} 个状态

但正如我们将看到的,在大型状态空间环境中,生成和更新Q表可能变得无效

因此,在本单元中,我们将学习我们的第一个深度强化学习智能体:深度Q学习。深度Q学习不再使用Q表,而是使用一个神经网络,该网络以状态为输入,并根据该状态近似每个动作的Q值。

我们将使用RL-Zoo来训练它玩太空侵略者和其他雅达利环境,RL-Zoo是一个使用Stable-Baselines进行强化学习训练的框架,提供用于训练、评估智能体、调整超参数、绘制结果和录制视频的脚本。

Environments

那么,我们开始吧!🚀

< > 在 GitHub 上更新