深度强化学习课程文档

第二次测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

第二次测验

学习和避免能力错觉的最佳方法是 **进行自我测试**。这将帮助您找到 **需要强化知识的地方**。

Q1: 什么是 Q 学习?

Q2: 什么是 Q 表?

Q3: 为什么如果我们有一个最优的 Q 函数 Q*,我们就有了一个最优的策略?

解答

因为如果我们有一个最优的 Q 函数,我们就有了一个最优的策略,因为我们知道对于每个状态,采取什么行动是最好的。

link value policy

Q4: 你能解释一下 Epsilon-Greedy 策略是什么吗?

解答Epsilon-Greedy 策略是一种处理探索/利用权衡的策略。

其思想是我们定义 epsilon ɛ = 1.0

  • 以 *1 — ɛ 的概率*:我们进行利用(即我们的智能体选择具有最高状态-动作对值的行动)。
  • 以 *ɛ 的概率*:我们进行探索(尝试随机行动)。
Epsilon Greedy

Q5: 我们如何更新状态-动作对的 Q 值?

Q Update exercise
解答 Q Update exercise

Q6:策略在线和策略离线有什么区别?

解答 On/off policy

恭喜你完成了这个测验🥳,如果你错过了某些内容,请花时间重新阅读本章以强化(😏)你的知识。

< > 在 GitHub 上更新