第二次测验
学习和避免能力错觉的最佳方法是 **进行自我测试**。这将帮助您找到 **需要强化知识的地方**。
Q1: 什么是 Q 学习?
Q2: 什么是 Q 表?
Q3: 为什么如果我们有一个最优的 Q 函数 Q*,我们就有了一个最优的策略?
解答
因为如果我们有一个最优的 Q 函数,我们就有了一个最优的策略,因为我们知道对于每个状态,采取什么行动是最好的。
Q4: 你能解释一下 Epsilon-Greedy 策略是什么吗?
解答
Epsilon-Greedy 策略是一种处理探索/利用权衡的策略。其思想是我们定义 epsilon ɛ = 1.0
- 以 *1 — ɛ 的概率*:我们进行利用(即我们的智能体选择具有最高状态-动作对值的行动)。
- 以 *ɛ 的概率*:我们进行探索(尝试随机行动)。
Q5: 我们如何更新状态-动作对的 Q 值?
解答
Q6:策略在线和策略离线有什么区别?
解答
恭喜你完成了这个测验🥳,如果你错过了某些内容,请花时间重新阅读本章以强化(😏)你的知识。
< > 在 GitHub 上更新