深度强化学习课程文档

中期测验

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

引言什么是强化学习？简短回顾两种基于价值的方法贝尔曼方程，简化我们的价值估计蒙特卡洛与时序差分学习中期回顾中期测验 Q-学习介绍一个 Q-学习示例 Q-学习回顾词汇表实操 Q-学习测验结论延伸阅读

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

中期测验

学习和避免能力错觉的最佳方法是自我测试。这将帮助你找到需要巩固知识的地方。

问题1：寻找最优策略的两种主要方法是什么？

问题2：什么是贝尔曼方程？

解决方案

贝尔曼方程是一个递归方程，其工作原理如下：我们不是从每个状态的开始计算回报，而是将任何状态的价值视为：

Rt+1 + gamma * V(St+1)

即时奖励 + 后续状态的折扣价值

问题3：定义贝尔曼方程的每个部分

Bellman equation quiz

解决方案

Bellman equation solution

问题4：蒙特卡洛学习方法和时序差分学习方法有什么区别？

问题5：定义时序差分学习公式的每个部分

TD Learning exercise

解决方案

TD Exercise

问题6：定义蒙特卡洛学习公式的每个部分

MC Learning exercise

解决方案

MC Exercise

恭喜你完成了本次测验🥳，如果你遗漏了一些内容，请花时间重新阅读前面的章节以巩固（😏）你的知识。

< > 在 GitHub 上更新

←中期回顾 Q-学习介绍→

© . This site is unofficial and not affiliated with Hugging Face, Inc.