深度强化学习课程文档

单元测试

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

单元测试

学习和 避免能力错觉 的最佳方法是 **测试自己**。这将帮助你找到 **需要加强知识的地方**。

Q1:找到最优策略的两种主要方法是什么?

Q2:什么是贝尔曼方程?

解答

**贝尔曼方程是一个递归方程**,其工作原理如下:与其从每个状态的开始计算回报,不如将任何状态的价值视为

Rt+1 + gamma * V(St+1)

即时奖励 + 后续状态的折扣价值

Q3:定义贝尔曼方程的每个部分

Bellman equation quiz
解答 Bellman equation solution

Q4:蒙特卡洛方法和时序差分学习方法有什么区别?

Q5:定义时序差分学习公式的每个部分

TD Learning exercise
解答 TD Exercise

Q6:定义蒙特卡洛学习公式的每个部分

MC Learning exercise
解答 MC Exercise

恭喜你完成了这个测验 🥳,如果你错过了一些内容,请花时间重新阅读前面的章节来巩固 (😏) 你的知识。

< > 在 GitHub 上更新