深度强化学习课程文档
测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是自我测试。这将帮助你找出需要巩固知识的地方。
Q1: 我们提到 Q-Learning 是一种表格法。什么是表格法?
解决方案
表格法是一种问题类型,其中状态空间和动作空间足够小,可以将近似值函数表示为数组和表格。例如,Q-Learning 就是一种表格法,因为我们使用表格来表示状态和动作值对。
Q2: 为什么我们不能使用经典的 Q-Learning 来解决 Atari 游戏?
Q3: 为什么在深度 Q-Learning 中,我们使用帧作为输入时,要将四帧堆叠在一起?
解决方案
我们将帧堆叠在一起,因为这有助于我们处理时间限制问题:一帧不足以捕获时间信息。例如,在乒乓球游戏中,如果我们的代理只获得一帧,它将无法知道球的方向。


Q4: 深度 Q-Learning 的两个阶段是什么?
Q5: 为什么我们在深度 Q-Learning 中创建回放记忆?
解决方案
1. 更有效地利用训练过程中的经验
通常,在线强化学习中,代理与环境交互,获得经验(状态、动作、奖励和下一个状态),从中学习(更新神经网络),然后丢弃它们。这效率不高。但是,通过经验回放,我们创建一个回放缓冲区,用于保存可以在训练期间重复使用的经验样本。
2. 避免遗忘之前的经验并减少经验之间的相关性
如果我们给神经网络提供连续的经验样本,就会出现一个问题:它倾向于随着新经验的覆盖而忘记之前的经验。例如,如果我们先在第一级,然后是第二级(不同),我们的代理可能会忘记如何在第一级中表现和玩耍。
Q6: 我们如何使用双重深度 Q-Learning?
解决方案
当我们计算 Q 目标时,我们使用两个网络来将动作选择与目标 Q 值生成解耦。我们
使用我们的 DQN 网络选择下一个状态的最佳动作(具有最高 Q 值的动作)。
使用我们的目标网络计算在下一个状态下执行该动作的目标 Q 值。
恭喜你完成了这个测验🥳,如果你漏掉了一些内容,花点时间重新阅读章节以巩固 (😏) 你的知识。
< > 在 GitHub 上更新