深度强化学习课程文档
深度 Q-Learning
加入 Hugging Face 社区
并获得增强的文档体验
开始
深度 Q-Learning

在上一个单元中,我们学习了我们的第一个强化学习算法:Q-Learning,从零开始实现它,并在两个环境中对其进行了训练,FrozenLake-v1 ☃️ 和 Taxi-v3 🚕。
这个简单的算法让我们获得了出色的结果,但是这些环境相对简单,因为状态空间是离散且小的(FrozenLake-v1 有 16 种不同的状态,Taxi-v3 有 500 种)。相比之下,Atari 游戏中的状态空间可以包含 到 个状态。
但是正如我们将看到的,在大型状态空间环境中,生成和更新 Q 表可能会变得无效。
因此在本单元中,我们将学习我们的第一个深度强化学习智能体:深度 Q-Learning。深度 Q-Learning 没有使用 Q 表,而是使用神经网络,该神经网络接受一个状态并根据该状态估算每个动作的 Q 值。
并且我们将使用 RL-Zoo(一个使用 Stable-Baselines 的 RL 训练框架,它提供了用于训练、评估智能体、调整超参数、绘制结果和录制视频的脚本)训练它玩太空侵略者和其他 Atari 环境。

那么,让我们开始吧!🚀
< > 在 GitHub 上更新