深度强化学习课程文档
期中测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
期中测验
学习和避免能力错觉的最佳方法是进行自我测试。 这将帮助您找到您需要加强知识的地方。
问题 1:找到最优策略的两种主要方法是什么?
问题 2:什么是贝尔曼方程?
答案
贝尔曼方程是一个递归方程,其工作原理如下:与其从头开始计算每个状态的回报,不如将任何状态的价值视为
Rt+1 + gamma * V(St+1)
即时奖励 + 后续状态的折扣价值
问题 3:定义贝尔曼方程的每个部分

答案

问题 4:蒙特卡洛学习方法和时间差分学习方法之间有什么区别?
问题 5:定义时间差分学习公式的每个部分

答案

问题 6:定义蒙特卡洛学习公式的每个部分

答案

恭喜你完成本次测验 🥳,如果你遗漏了一些元素,请花时间再次阅读前面的章节以加强 (😏) 你的知识。
< > 在 GitHub 上更新