深度强化学习课程文档

测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

测验

学习和避免能力错觉的最佳方法是**自我测试**。这将帮助你找出**需要巩固知识的地方**。

Q1: 以下哪种对偏差-方差权衡的解释在强化学习领域中最准确?

Q2: 当谈论强化学习中具有偏差和/或方差的模型时,以下哪些陈述是正确的?

Q3: 以下哪些关于蒙特卡洛方法的陈述是正确的?

Q4: 用你自己的话,你将如何描述 Actor-Critic 方法 (A2C)?

解决方案

Actor-Critic 背后的思想是学习两个函数近似:

  1. 一个`策略`,控制智能体的行为 (π)
  2. 一个`价值`函数,通过衡量所采取行动的好坏来辅助策略更新 (q)
Actor-Critic, step 2

Q5: 以下哪些关于 Actor-Critic 方法的陈述是正确的?

Q6: A2C 方法中的“优势”是什么?

解决方案

我们可以使用`优势`函数,而不是直接使用评论员的行动-价值函数。`优势`函数背后的思想是,我们计算某个行动与该状态下其他可能行动的相对优势,并对其进行平均。

换句话说:在某个状态下采取该行动与该状态的平均价值相比,有多大的优势。

Advantage in A2C

恭喜你完成了这个测验🥳,如果你漏掉了一些内容,请花时间再读一遍本章,以巩固(😏)你的知识。

< > 在 GitHub 上更新