深度Q学习

在上一单元中，我们学习了第一个强化学习算法：Q学习，并从头开始实现，在FrozenLake-v1 ☃️和Taxi-v3 🚕两个环境中进行了训练。

我们用这个简单的算法取得了优异的成绩，但这些环境相对简单，因为状态空间是离散且很小（FrozenLake-v1有16个不同的状态，Taxi-v3有500个）。相比之下，雅达利游戏中的状态空间可以包含 $10^{9}$ 到 $10^{11}$ 个状态。

但正如我们将看到的，在大型状态空间环境中，生成和更新Q表可能变得无效。

因此，在本单元中，我们将学习我们的第一个深度强化学习智能体：深度Q学习。深度Q学习不再使用Q表，而是使用一个神经网络，该网络以状态为输入，并根据该状态近似每个动作的Q值。

我们将使用RL-Zoo来训练它玩太空侵略者和其他雅达利环境，RL-Zoo是一个使用Stable-Baselines进行强化学习训练的框架，提供用于训练、评估智能体、调整超参数、绘制结果和录制视频的脚本。

那么，我们开始吧！🚀

深度强化学习课程