深度强化学习课程文档
第二份测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
第二份测验
学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要巩固知识的地方。
问题1:什么是Q-学习?
问题2:什么是Q-表?
问题3:为什么如果我们有一个最优Q-函数Q*,我们就会有一个最优策略?
解决方案
因为如果我们有一个最优Q-函数,我们就有一个最优策略,因为我们知道对于每个状态,应该采取什么最佳行动。

问题4:你能解释一下什么是ε-贪婪策略吗?
解决方案
ε-贪婪策略是一种处理探索/利用权衡的策略。其思想是,我们定义ε = 1.0。
- 以1 - ε的概率:我们进行利用(即我们的代理选择具有最高状态-行动对价值的行动)。
- 以ε的概率:我们进行探索(尝试随机行动)。

问题5:我们如何更新状态-行动对的Q值?

解决方案

问题6:在线策略和离线策略有什么区别?
解决方案

恭喜你完成了本次测验🥳,如果你遗漏了一些内容,请花时间重新阅读该章节以巩固(😏)你的知识。
< > 在 GitHub 上更新