深度强化学习课程文档
测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
测验
学习和避免能力错觉的最佳方法是进行自我测试。 这将帮助你找到你需要加强知识的地方。
Q1: 在强化学习领域中,以下哪项对偏差-方差权衡的解释最为准确?
Q2: 在强化学习中,当谈论具有偏差和/或方差的模型时,以下哪些说法是正确的?
Q3: 关于蒙特卡罗方法,以下哪些说法是正确的?
Q4: 请用你自己的话描述 Actor-Critic 方法 (A2C)?
解答
Actor-Critic 背后的思想是我们学习两个函数近似
- 一个
策略
,用于控制我们的智能体的行为 (π) - 一个
价值
函数,通过衡量所采取行动的好坏程度来辅助策略更新 (q)

Q5: 关于 Actor-Critic 方法,以下哪些说法是正确的?
Q6: A2C 方法中的优势是什么?
解答
我们可以使用优势
函数,而不是直接使用 Critic 的行动-价值函数。优势
函数背后的思想是,我们计算一个状态下采取某个行动相对于在该状态下其他可能行动的相对优势,然后取平均值。
换句话说:在一个状态下采取该行动与该状态的平均价值相比有多好

恭喜你完成本次测验 🥳,如果你遗漏了一些内容,请花时间再次阅读本章以加强 (😏) 你的知识。
< > 在 GitHub 上更新