深度强化学习课程文档

第二份测验

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

引言什么是强化学习？简短回顾两种基于价值的方法贝尔曼方程，简化我们的价值估计蒙特卡洛与时序差分学习中期回顾中期测验 Q-学习介绍 Q-学习示例 Q-学习回顾词汇表实操 Q-学习测验结论延伸阅读

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

第二份测验

学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要巩固知识的地方。

问题1：什么是Q-学习？

问题2：什么是Q-表？

问题3：为什么如果我们有一个最优Q-函数Q*，我们就会有一个最优策略？

解决方案

因为如果我们有一个最优Q-函数，我们就有一个最优策略，因为我们知道对于每个状态，应该采取什么最佳行动。

link value policy

问题4：你能解释一下什么是ε-贪婪策略吗？

解决方案

ε-贪婪策略是一种处理探索/利用权衡的策略。

其思想是，我们定义ε = 1.0。

以1 - ε的概率：我们进行利用（即我们的代理选择具有最高状态-行动对价值的行动）。
以ε的概率：我们进行探索（尝试随机行动）。

Epsilon Greedy

问题5：我们如何更新状态-行动对的Q值？

Q Update exercise

解决方案

Q Update exercise

问题6：在线策略和离线策略有什么区别？

解决方案

On/off policy

恭喜你完成了本次测验🥳，如果你遗漏了一些内容，请花时间重新阅读该章节以巩固（😏）你的知识。

< > 在 GitHub 上更新

←实操结论→

© . This site is unofficial and not affiliated with Hugging Face, Inc.