深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始

测验

学习的最佳方法,以及避免能力错觉 就是测试自己。 这将帮助您找到 **需要强化知识的地方**。

Q1: 在强化学习领域中,以下哪种关于偏差-方差权衡的解释最准确?

Q2: 当讨论 RL 中具有偏差和/或方差的模型时,以下哪些陈述是正确的?

Q3: 关于蒙特卡洛方法,以下哪些陈述是正确的?

Q4: 你会用自己的话如何描述 Actor-Critic 方法 (A2C)?

解决方案

Actor-Critic 背后的理念是,我们学习两个函数逼近

  1. 一个控制代理行为的 `策略` (π)
  2. 一个 `价值` 函数,通过衡量所采取动作的优劣来辅助策略更新 (q)
Actor-Critic, step 2

Q5: 关于 Actor-Critic 方法,以下哪些陈述是正确的?

Q6: A2C 方法中的优势是什么?

解决方案

与其直接使用 Critic 的动作值函数,我们可以使用 `优势` 函数。`优势` 函数背后的理念是,我们计算某个动作相对于该状态下其他可能动作的相对优势,并对其进行平均。

换句话说:在特定状态下采取该行动与该状态的平均值相比如何。

Advantage in A2C

恭喜你完成了这个测验🥳,如果你错过了一些元素,请花时间重新阅读章节以加强(😏)你的知识。

< > 更新 在 GitHub 上