测验
学习的最佳方法,以及避免能力错觉 就是测试自己。 这将帮助您找到 **需要强化知识的地方**。
Q1: 在强化学习领域中,以下哪种关于偏差-方差权衡的解释最准确?
Q2: 当讨论 RL 中具有偏差和/或方差的模型时,以下哪些陈述是正确的?
Q3: 关于蒙特卡洛方法,以下哪些陈述是正确的?
Q4: 你会用自己的话如何描述 Actor-Critic 方法 (A2C)?
解决方案
Actor-Critic 背后的理念是,我们学习两个函数逼近
- 一个控制代理行为的 `策略` (π)
- 一个 `价值` 函数,通过衡量所采取动作的优劣来辅助策略更新 (q)
Q5: 关于 Actor-Critic 方法,以下哪些陈述是正确的?
Q6: A2C 方法中的优势是什么?
解决方案
与其直接使用 Critic 的动作值函数,我们可以使用 `优势` 函数。`优势` 函数背后的理念是,我们计算某个动作相对于该状态下其他可能动作的相对优势,并对其进行平均。
换句话说:在特定状态下采取该行动与该状态的平均值相比如何。
恭喜你完成了这个测验🥳,如果你错过了一些元素,请花时间重新阅读章节以加强(😏)你的知识。
< > 更新 在 GitHub 上