测验

学习和避免能力错觉的最佳方法是自我测试。这将帮助你找出需要巩固知识的地方。

解决方案

表格法是一种问题类型，其中状态空间和动作空间足够小，可以将近似值函数表示为数组和表格。例如，Q-Learning 就是一种表格法，因为我们使用表格来表示状态和动作值对。

解决方案

我们将帧堆叠在一起，因为这有助于我们处理时间限制问题：一帧不足以捕获时间信息。例如，在乒乓球游戏中，如果我们的代理只获得一帧，它将无法知道球的方向。

解决方案

1. 更有效地利用训练过程中的经验

通常，在线强化学习中，代理与环境交互，获得经验（状态、动作、奖励和下一个状态），从中学习（更新神经网络），然后丢弃它们。这效率不高。但是，通过经验回放，我们创建一个回放缓冲区，用于保存可以在训练期间重复使用的经验样本。

2. 避免遗忘之前的经验并减少经验之间的相关性

如果我们给神经网络提供连续的经验样本，就会出现一个问题：它倾向于随着新经验的覆盖而忘记之前的经验。例如，如果我们先在第一级，然后是第二级（不同），我们的代理可能会忘记如何在第一级中表现和玩耍。

解决方案

当我们计算 Q 目标时，我们使用两个网络来将动作选择与目标 Q 值生成解耦。我们

恭喜你完成了这个测验🥳，如果你漏掉了一些内容，花点时间重新阅读章节以巩固 (😏) 你的知识。

深度强化学习课程