深度强化学习课程文档

第二次测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

第二次测验

学习和避免能力错觉的最佳方法是测试自己。 这将帮助您找到您需要加强知识的地方

Q1:什么是 Q-Learning?

Q2:什么是 Q 表?

Q3:为什么如果我们有一个最优 Q 函数 Q*,我们就有一个最优策略?

答案

因为如果我们有一个最优 Q 函数,我们就有一个最优策略,因为我们知道对于每个状态,采取哪个行动是最佳的。

link value policy

Q4:你能解释一下什么是 Epsilon-Greedy 策略吗?

答案Epsilon Greedy 策略是一种处理探索/利用权衡的策略。

其思想是我们定义 epsilon ɛ = 1.0

  • 概率 1 — ɛ :我们进行利用(也就是我们的智能体选择具有最高状态-行动对值的行动)。
  • 概率 ɛ :我们进行探索(尝试随机行动)。
Epsilon Greedy

Q5:我们如何更新状态、行动对的 Q 值?

Q Update exercise
答案 Q Update exercise

Q6:策略上(on-policy)和离策略(off-policy)之间有什么区别

答案 On/off policy

恭喜你完成本次测验 🥳,如果你遗漏了一些内容,请花时间重新阅读本章以加强 (😏) 你的知识。

< > 在 GitHub 上更新