深度强化学习课程文档
欢迎来到🤗深度强化学习课程
并获得增强的文档体验
开始使用
欢迎来到 🤗 深度强化学习课程

欢迎来到人工智能领域最引人入胜的主题:深度强化学习。
本课程将从初学者到专家,为您讲授深度强化学习。它完全免费且开源!
在本介绍单元中,您将
- 了解更多关于课程内容。
- 确定您将要走的路径(自学或认证过程)。
- 了解更多关于您将要参与的AI对AI挑战。
- 了解更多关于我们。
- 创建您的Hugging Face账户(免费)。
- 注册我们的Discord服务器,您可以在那里与同学和我们(Hugging Face团队)聊天。
让我们开始吧!
预期目标?
在本课程中,你将
- 📖 在理论和实践中学习深度强化学习。
- 🧑💻 学习使用著名的深度强化学习库,如Stable Baselines3、RL Baselines3 Zoo、Sample Factory和CleanRL。
- 🤖 在独特的环境中训练智能体,如SnowballFight、Huggy the Doggo 🐶、VizDoom (Doom),以及经典环境如Space Invaders、PyBullet等。
- 💾 通过一行代码将您训练好的智能体分享到Hub,也可以从社区下载强大的智能体。
- 🏆 参与挑战,将您的智能体与其他团队的智能体进行评估。您还将与您训练的智能体对战。
- 🎓 完成80%的作业即可获得结业证书。
以及更多!
在本课程结束时,您将从基础知识到最先进(SOTA)方法打下坚实的基础。
别忘了注册课程(我们正在收集您的电子邮件,以便在每个单元发布时向您发送链接,并向您提供有关挑战和更新的信息)。
立即注册 👉 此处
课程维护通知 🚧
请注意,此深度强化学习课程目前处于低维护状态。但是,它仍然是学习深度强化学习理论和实践的绝佳资源。
请记住以下几点
单元7 (AI vs AI):此功能目前无法使用。但是,您仍然可以训练您的智能体踢足球并观察其表现。
排行榜:排行榜不再运行。
除了这些,所有理论内容和实践练习仍然完全可访问且对学习有效。
如果您在其中一个实践环节中遇到任何问题,请查看问题区,社区在那里提供了一些错误解决方案。
课程内容是怎样的?
课程由以下部分组成
理论部分:您将在其中学习理论概念。
实践部分:您将学习使用著名的深度强化学习库,在独特的环境中训练您的智能体。这些实践部分将是Google Colab笔记本,并附带教程视频,如果您更喜欢通过视频格式学习!
挑战:您将让您的智能体在不同的挑战中与其他智能体竞争。还将有一个排行榜供您比较智能体的表现。
课程大纲是什么?
这是课程大纲


两条路径:选择您自己的冒险

您可以选择以下方式学习本课程:
- 获得结业证书:您需要完成80%的作业。
- 获得荣誉证书:您需要完成100%的作业。
- 作为简单的旁听生:您可以参与所有挑战,并按需完成作业。
课程没有截止日期,是自定进度的。两条路径完全免费。无论您选择哪条路径,我们都建议您遵循推荐的进度,以便与同学一起享受课程和挑战。
您无需告知我们您选择哪条路径。如果您完成了80%以上的作业,您将获得证书。
认证流程
认证过程完全免费
- 获得结业证书:您需要完成80%的作业。
- 获得荣誉证书:您需要完成100%的作业。
同样,课程是自定进度的,没有截止日期。但我们的建议是遵循推荐的进度部分。

如何充分利用课程?
为了充分利用课程,我们有一些建议
- 加入Discord学习小组:小组学习总是更容易。为此,您需要加入我们的Discord服务器。如果您不熟悉Discord,别担心!我们有一些工具可以帮助您了解它。
- 完成测验和作业:学习的最佳方式是动手实践和自我测试。
- 制定一个保持同步的时间表:您可以使用我们推荐的进度时间表,或者创建您自己的。

我需要什么工具?
您只需要3样东西
- 一台电脑和互联网连接。
- Google Colab(免费版):我们的大多数实践都将使用Google Colab,免费版就足够了。
- 一个Hugging Face账户:用于推送和加载模型。如果您还没有账户,可以在这里创建一个(免费)。

推荐的学习进度是怎样的?
本课程的每个章节都设计为在1周内完成,每周大约需要3-4小时的学习时间。但是,您可以根据需要花费尽可能多的时间来完成课程。如果您想更深入地研究某个主题,我们将提供额外的资源来帮助您实现这一目标。
我们是谁
关于作者
- Thomas Simonini 是 Hugging Face 🤗 的开发者倡导者,专门从事深度强化学习。他于2018年创立了深度强化学习课程,该课程成为深度强化学习领域最受欢迎的课程之一。
关于团队
- Omar Sanseviero 是 Hugging Face 的机器学习工程师,专注于机器学习、社区和开源的交叉领域。此前,Omar 曾在 Google 的 Assistant 和 TensorFlow Graphics 团队担任软件工程师。他来自秘鲁,喜欢羊驼 🦙。
- Sayak Paul 是 Hugging Face 的开发者倡导工程师。他专注于表示学习领域(自监督、半监督、模型鲁棒性)。他喜欢看犯罪和动作惊悚片 🔪。
本课程中有哪些挑战?
在这个新版本的课程中,您有两种类型的挑战
- 一个排行榜,用于比较您的智能体与其他同学的智能体的表现。
- AI 对 AI 挑战,您可以训练您的智能体并与其他同学的智能体竞争。

我还有问题
请在我们的Discord服务器 #rl-discussions中提出您的问题。
< > 在 GitHub 上更新