深度强化学习课程文档
第二次测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
第二次测验
学习和避免能力错觉的最佳方法是测试自己。 这将帮助您找到您需要加强知识的地方。
Q1:什么是 Q-Learning?
Q2:什么是 Q 表?
Q3:为什么如果我们有一个最优 Q 函数 Q*,我们就有一个最优策略?
答案
因为如果我们有一个最优 Q 函数,我们就有一个最优策略,因为我们知道对于每个状态,采取哪个行动是最佳的。

Q4:你能解释一下什么是 Epsilon-Greedy 策略吗?
答案
Epsilon Greedy 策略是一种处理探索/利用权衡的策略。其思想是我们定义 epsilon ɛ = 1.0
- 以 概率 1 — ɛ :我们进行利用(也就是我们的智能体选择具有最高状态-行动对值的行动)。
- 以 概率 ɛ :我们进行探索(尝试随机行动)。

Q5:我们如何更新状态、行动对的 Q 值?

答案

Q6:策略上(on-policy)和离策略(off-policy)之间有什么区别
答案

恭喜你完成本次测验 🥳,如果你遗漏了一些内容,请花时间重新阅读本章以加强 (😏) 你的知识。
< > 在 GitHub 上更新