深度强化学习课程文档

深度 Q 学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

深度 Q 学习

Unit 3 thumbnail

在上一单元中,我们学习了第一个强化学习算法:Q 学习,并从头开始实施了该算法,并在 FrozenLake-v1 ☃️ 和 Taxi-v3 🚕 两种环境中训练了该算法。

我们使用这个简单的算法获得了出色的结果,但这些环境相对简单,因为 状态空间是离散的且很小(FrozenLake-v1 的 16 个不同状态,Taxi-v3 的 500 个状态)。相比之下,Atari 游戏中的状态空间可以 **包含10910^{9}101110^{11} 个状态**。

但正如我们即将看到的那样,在大型状态空间环境中生成和更新 **Q 表可能会变得无效**。

因此在本单元中,**我们将研究第一个深度强化学习智能体**:深度 Q 学习。深度 Q 学习不使用 Q 表,而是使用神经网络,该网络接受状态,并根据该状态对每个动作的 Q 值进行近似。

并且 **我们将使用 RL-Zoo 训练它来玩太空侵略者和其他 Atari 环境**,这是一个使用 Stable-Baselines 进行强化学习训练的框架,它提供用于训练、评估智能体、调整超参数、绘制结果和录制视频的脚本。

Environments

让我们开始吧!🚀

< > 在 GitHub 上更新