深度强化学习课程文档
中期测验
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
中期测验
学习和避免能力错觉的最佳方法是自我测试。这将帮助你找到需要巩固知识的地方。
问题1:寻找最优策略的两种主要方法是什么?
问题2:什么是贝尔曼方程?
解决方案
贝尔曼方程是一个递归方程,其工作原理如下:我们不是从每个状态的开始计算回报,而是将任何状态的价值视为:
Rt+1 + gamma * V(St+1)
即时奖励 + 后续状态的折扣价值
问题3:定义贝尔曼方程的每个部分

解决方案

问题4:蒙特卡洛学习方法和时序差分学习方法有什么区别?
问题5:定义时序差分学习公式的每个部分

解决方案

问题6:定义蒙特卡洛学习公式的每个部分

解决方案

恭喜你完成了本次测验🥳,如果你遗漏了一些内容,请花时间重新阅读前面的章节以巩固(😏)你的知识。
< > 在 GitHub 上更新