深度 RL 课程文档
欢迎来到 🤗 深度强化学习课程
并获得增强的文档体验
开始入门
欢迎来到 🤗 深度强化学习课程

欢迎来到人工智能领域最引人入胜的主题:深度强化学习。
本课程将从初学者到专家级别教您深度强化学习。它完全免费且开源!
在本介绍单元中,您将
- 了解更多关于课程内容。
- 确定您将要选择的路径(自学或认证流程)。
- 了解更多关于您将参与的 AI vs. AI 挑战赛。
- 更多关于我们的信息。
- 创建您的 Hugging Face 帐户(免费)。
- 注册加入我们的 Discord 服务器,您可以在这里与同学和我们(Hugging Face 团队)聊天。
让我们开始吧!
期待什么?
在本课程中,您将
- 📖 理论与实践相结合地学习深度强化学习。
- 🧑💻 学习使用著名的深度 RL 库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。
- 🤖 在独特的环境中训练智能体,例如 SnowballFight、Huggy the Doggo 🐶、VizDoom (Doom) 以及经典的 Space Invaders、PyBullet 等。
- 💾 通过一行代码将您训练好的智能体分享到 Hub,也可以从社区下载强大的智能体。
- 🏆 参与挑战赛,您将在其中评估您的智能体与其他团队的智能体。您还将有机会与您训练的智能体对战。
- 🎓 通过完成 80% 的作业,获得完成证书。
以及更多!
在本课程结束时,您将获得从基础到 SOTA(最先进水平)方法的扎实基础。
不要忘记注册课程(我们正在收集您的电子邮件,以便能够在每个单元发布时向您发送链接,并向您提供有关挑战赛和更新的信息)。
注册 👉 这里
课程是什么样的?
本课程由以下部分组成
理论部分:您将在其中学习理论概念。
实践操作:您将在其中学习使用著名的深度 RL 库来在独特的环境中训练您的智能体。这些实践操作将是 Google Colab 笔记本,并附有配套的教程视频,如果您更喜欢视频格式的学习!
挑战赛:您将让您的智能体在不同的挑战赛中与其他智能体竞争。还将有一个 排行榜,供您比较智能体的性能。
课程大纲是什么?
这是课程的教学大纲


两条路径:选择您自己的冒险

您可以选择以下任一方式学习本课程
- 获得完成证书:您需要完成 80% 的作业。
- 获得荣誉证书:您需要完成 100% 的作业。
- 作为简单的旁听:您可以参加所有挑战赛,并根据需要完成作业。
没有截止日期,课程是自定进度的。这两种路径完全免费。无论您选择哪条路径,我们都建议您按照推荐的进度进行,以便与您的同学一起享受课程和挑战赛。
您无需告诉我们您选择哪条路径。如果您完成的作业超过 80%,您将获得证书。
认证流程
认证流程完全免费
- 获得完成证书:您需要完成 80% 的作业。
- 获得荣誉证书:您需要完成 100% 的作业。
同样,由于课程是自定进度的,因此没有截止日期。但我们的建议是遵循推荐的进度部分。

如何充分利用本课程?
为了充分利用本课程,我们有一些建议
- 加入 Discord 中的学习小组:小组学习总是更容易。为此,您需要加入我们的 Discord 服务器。如果您是 Discord 新手,请不用担心!我们提供了一些工具来帮助您了解它。
- 做测验和作业:最好的学习方式是实践和自我测试。
- 制定时间表以保持同步:您可以使用下面我们推荐的进度表,也可以创建您自己的时间表。

我需要什么工具?
您只需要 3 样东西
- 一台可以连接互联网的电脑。
- Google Colab(免费版):我们的大部分实践操作都将使用 Google Colab,免费版就足够了。
- 一个 Hugging Face 帐户:用于推送和加载模型。如果您还没有帐户,可以在此处创建一个(免费)。

推荐的进度是什么?
本课程的每个章节都旨在 在一周内完成,每周大约需要 3-4 小时的工作时间。但是,您可以根据需要花费尽可能多的时间来完成课程。如果您想更深入地研究某个主题,我们将提供额外的资源来帮助您实现这一目标。
我们是谁
关于作者
- Thomas Simonini 是 Hugging Face 🤗 的开发者布道师,专注于深度强化学习。 他于 2018 年创立了深度强化学习课程,该课程已成为最常用的深度 RL 课程之一。
关于团队
- Omar Sanseviero 是 Hugging Face 的机器学习工程师,他在 ML、社区和开源的交叉领域工作。 此前,Omar 曾在 Google 的 Assistant 和 TensorFlow Graphics 团队担任软件工程师。 他来自秘鲁,喜欢美洲驼 🦙。
- Sayak Paul 是 Hugging Face 的开发者布道工程师。 他对表征学习领域(自监督、半监督、模型鲁棒性)感兴趣。 他喜欢看犯罪和动作惊悚片 🔪。
本课程有哪些挑战赛?
在本课程的新版本中,您有两种类型的挑战赛
- 排行榜,用于比较您的智能体性能与其他同学的性能。
- AI vs. AI 挑战赛,您可以在其中训练您的智能体并与其他同学的智能体竞争。

我发现了一个错误,或者我想改进课程
欢迎贡献 🤗
- 如果您在笔记本中发现了一个错误 🐛,请打开一个 issue 并描述问题。
- 如果您想改进课程,您可以打开一个 Pull Request。
我仍然有问题
请在我们的 Discord 服务器 #rl-discussions 中提问。
< > 在 GitHub 上更新