深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

测验

学习和避免能力错觉 的最佳方式**是检验自己**。这将帮助你找到**需要强化知识的地方**。

问题 1:我们提到 Q 学习是一种表格方法。什么是表格方法?

解答

表格方法是一种问题类型,其中状态和动作空间足够小,可以将值函数近似表示为**数组和表格**。例如,**Q 学习是一种表格方法**,因为我们使用表格来表示状态和动作值对。

问题 2:为什么我们不能使用经典的 Q 学习来解决 Atari 游戏?

问题 3:当我们在深度 Q 学习中使用帧作为输入时,为什么要将四帧堆叠在一起?

解答

我们将帧堆叠在一起,因为它有助于我们**处理时间限制问题**:一帧不足以捕获时间信息。例如,在乒乓球游戏中,如果我们的智能体**只获得一帧,它将无法知道球的方向**。

Temporal limitation Temporal limitation

问题 4:深度 Q 学习的两个阶段是什么?

问题 5:为什么我们在深度 Q 学习中创建回放内存?

解答

1. 更有效地利用训练期间的经验

通常,在线强化学习中,智能体与环境交互,获得经验(状态、动作、奖励和下一个状态),从中学习(更新神经网络),然后丢弃它们。这效率不高。但是,使用经验回放,**我们创建了一个回放缓冲区来保存经验样本,我们可以在训练期间重复使用这些样本**。

2. 避免遗忘之前的经验并减少经验之间的相关性

如果我们向神经网络提供连续的经验样本,我们会遇到的问题是,**它倾向于随着新经验的覆盖而忘记之前的经验**。例如,如果我们处于第一级然后是第二级,而第二级与第一级不同,我们的智能体可能会忘记如何在第一级中表现和玩耍。

问题 6:我们如何使用双深度 Q 学习?

解答

当我们计算 Q 目标时,我们使用两个网络将动作选择与目标 Q 值生成分离。我们

  • 使用我们的DQN 网络来**选择下一个状态要采取的最佳动作**(具有最高 Q 值的动作)。

  • 使用我们的目标网络来计算**在下一个状态采取该动作的目标 Q 值**。

恭喜你完成了本次测验 🥳,如果你错过了某些内容,请花时间重新阅读章节以强化 (😏) 你的知识。

< > GitHub 更新