深度强化学习课程文档
测验
加入 Hugging Face 社区
并获取增强的文档体验
开始
测验
学习和避免能力错觉的最佳方法是进行自我测试。这将帮助你找到需要加强知识的地方。
问题 1:我们提到 Q-Learning 是一种表格方法。什么是表格方法?
解答
表格方法是一种问题类型,其中状态和动作空间足够小,可以近似价值函数,并将其表示为数组和表格。例如,Q-Learning 是一种表格方法,因为我们使用表格来表示状态和动作价值对。
问题 2:为什么我们不能使用经典的 Q-Learning 来解决 Atari 游戏?
问题 3:当我们在深度 Q-Learning 中使用帧作为输入时,为什么要将四个帧堆叠在一起?
解答
我们将帧堆叠在一起,因为它有助于我们处理时间限制问题:单帧不足以捕获时间信息。例如,在 pong 游戏中,如果我们的智能体只获得一帧,它将无法知道球的方向。


问题 4:深度 Q-Learning 的两个阶段是什么?
问题 5:为什么我们在深度 Q-Learning 中创建回放记忆?
解答
1. 更有效地利用训练期间的经验
通常,在在线强化学习中,智能体与环境交互,获得经验(状态、动作、奖励和下一个状态),从中学习(更新神经网络),然后丢弃它们。这效率不高。但是,通过经验回放,我们创建了一个回放缓冲区,用于保存经验样本,以便我们在训练期间重复使用。
2. 避免忘记以前的经验并减少经验之间的相关性
如果我们向神经网络提供连续的经验样本,我们遇到的问题是它倾向于忘记以前的经验,因为它会覆盖新的经验。例如,如果我们处于第一关,然后进入第二关(这是不同的关卡),我们的智能体可能会忘记如何在第一关中行动和玩耍。
问题 6:我们如何使用双重深度 Q-Learning?
解答
当我们计算 Q 目标时,我们使用两个网络来解耦动作选择和目标 Q 值的生成。我们
使用我们的 DQN 网络来选择在下一状态要采取的最佳动作(具有最高 Q 值的动作)。
使用我们的目标网络来计算在下一状态采取该动作的目标 Q 值。
恭喜你完成本次测验 🥳,如果你遗漏了一些内容,请花时间再次阅读本章以加强(😏)你的知识。
< > 在 GitHub 上更新