深度强化学习课程文档

结论

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

简介基于策略的方法是什么？策略梯度方法的优点和缺点深入探究策略梯度（可选）策略梯度定理词汇表实战测验结论附加阅读

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

结论

恭喜你完成本单元！有很多知识。也恭喜你完成了教程。你刚刚使用 PyTorch 从头开始编写了你的第一个深度强化学习代理，并将其共享到 Hub 🥳。

不要犹豫，通过改进在更复杂环境中的实现来迭代本单元（例如，将网络更改为卷积神经网络以处理帧作为观察如何？）。

在下一个单元中，我们将通过在 Unity 环境中训练代理来了解更多关于 Unity MLAgents 的知识。这样，你就可以准备参加 AI 对抗 AI 挑战，你将在其中训练你的代理在雪球大战和足球比赛中与其他代理竞争。

听起来很有趣吗？下次见！

最后，我们很想**听听你对课程的看法以及我们如何改进它**。如果你有任何反馈，请 👉 填写此表

继续学习，保持出色 🤗

< > 在 GitHub 上更新

←测验附加阅读→

© . This site is unofficial and not affiliated with Hugging Face, Inc.