深度强化学习课程文档

第二份测验

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

第二份测验

学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要巩固知识的地方

问题1:什么是Q-学习?

问题2:什么是Q-表?

问题3:为什么如果我们有一个最优Q-函数Q*,我们就会有一个最优策略?

解决方案

因为如果我们有一个最优Q-函数,我们就有一个最优策略,因为我们知道对于每个状态,应该采取什么最佳行动。

link value policy

问题4:你能解释一下什么是ε-贪婪策略吗?

解决方案ε-贪婪策略是一种处理探索/利用权衡的策略。

其思想是,我们定义ε = 1.0。

  • 1 - ε的概率:我们进行利用(即我们的代理选择具有最高状态-行动对价值的行动)。
  • ε的概率:我们进行探索(尝试随机行动)。
Epsilon Greedy

问题5:我们如何更新状态-行动对的Q值?

Q Update exercise
解决方案 Q Update exercise

问题6:在线策略和离线策略有什么区别?

解决方案 On/off policy

恭喜你完成了本次测验🥳,如果你遗漏了一些内容,请花时间重新阅读该章节以巩固(😏)你的知识。

< > 在 GitHub 上更新