欢迎来到 🤗 深度强化学习课程
欢迎来到人工智能中最迷人的主题:深度强化学习。
本课程将从初学者到专家教你关于深度强化学习的知识。它是完全免费的,也是开源的!
在本介绍单元中,您将
- 了解有关课程内容的更多信息。
- 确定您将要采取的路径(自我审核或认证流程)。
- 了解有关您将要参与的AI 对 AI 挑战的更多信息。
- 了解有关我们的更多信息。
- 创建您的 Hugging Face 帐户(免费)。
- 加入我们的 Discord 服务器,您可以在那里与您的同学和我们(Hugging Face 团队)聊天。
让我们开始吧!
预期内容?
在本课程中,您将
- 📖 在理论和实践中学习深度强化学习。
- 🧑💻 学习使用著名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。
- 🤖 在独特的环境中训练智能体,例如 SnowballFight、Huggy the Doggo 🐶、VizDoom (Doom) 以及经典环境,例如 Space Invaders、PyBullet 等等。
- 💾 使用一行代码将您训练好的智能体分享到 Hub,并从社区中下载强大的智能体。
- 🏆 参加挑战,在不同的挑战中让您的智能体与其他团队的智能体进行评估。您也可以与您训练的智能体对战。
- 🎓 完成 80% 的作业即可获得结业证书。
还有更多!
在本课程结束时,您将从基础知识到最先进 (SOTA) 方法获得坚实的基础。
别忘了报名参加本课程(我们正在收集您的电子邮件,以便能够在每个单元发布时向您发送链接,并向您提供有关挑战和更新的信息)。
报名 👉 此处
本课程是什么样的?
本课程由以下部分组成
理论部分:您将在理论上学习概念。
动手实践:您将学习使用著名的深度强化学习库在独特的环境中训练您的智能体。这些动手实践将是带有配套视频教程的 Google Colab 笔记本(如果您更喜欢使用视频格式学习!)。
挑战:您将让您的智能体在不同的挑战中与其他智能体竞争。还会有一个排行榜,您可以用来比较智能体的性能。
课程大纲是什么?
这是课程的大纲
两种路径:选择自己的冒险
您可以选择按照以下两种方式学习本课程
- 获得结业证书:您需要完成 80% 的作业。
- 获得荣誉证书:您需要完成 100% 的作业。
- 以简单的审核方式学习:您可以参加所有挑战,也可以选择完成作业。
没有截止日期,课程的学习节奏由您掌控。两种路径都是完全免费的。无论您选择哪种路径,我们建议您按照推荐的节奏学习,以便与您的同学一起享受课程和挑战。
您无需告诉我们您选择哪种路径。如果您完成了超过 80% 的作业,您将获得证书。
认证流程
认证流程是完全免费的
- 获得结业证书:您需要完成 80% 的作业。
- 获得荣誉证书:您需要完成 100% 的作业。
同样,没有截止日期,因为课程的学习节奏由您掌控。但我们建议您按照推荐的节奏学习。
如何充分利用本课程?
要充分利用本课程,我们有一些建议
- 加入 Discord 学习小组: 以小组形式学习通常更容易。为此,您需要加入我们的 Discord 服务器。如果您不熟悉 Discord,不用担心!我们有一些工具可以帮助您学习。
- 完成测验和作业: 学习的最佳方式是动手实践和自我测试。
- 制定时间表保持同步: 您可以使用我们推荐的进度时间表,或创建自己的时间表。
我需要哪些工具?
您只需要 3 件事
- 一台电脑,并配备互联网连接。
- Google Colab(免费版): 我们的大部分实践活动将使用 Google Colab,免费版就足够了。
- 一个 Hugging Face 账户: 用于推送和加载模型。如果您还没有账户,您可以在这里创建一个(免费的)。
推荐的进度如何?
本课程的每一章都设计为在一个星期内完成,每周大约需要 3-4 小时的工作量。但是,您可以根据需要花更多时间来完成课程。如果您想更深入地研究某个主题,我们将提供额外的资源来帮助您实现目标。
我们是谁
关于作者
- Thomas Simonini 是 Hugging Face 🤗 的开发者倡导者,专门从事深度强化学习。他在 2018 年创办了深度强化学习课程,该课程成为深度 RL 中使用最广泛的课程之一。
关于团队
- Omar Sanseviero 是 Hugging Face 的机器学习工程师,他在 ML、社区和开源的交汇点工作。此前,Omar 在 Google 的 Assistant 和 TensorFlow Graphics 团队担任软件工程师。他来自秘鲁,喜欢羊驼🦙。
- Sayak Paul 是 Hugging Face 的开发者倡导工程师。他对表示学习领域(自监督、半监督、模型鲁棒性)感兴趣。他喜欢看犯罪和动作惊悚片🔪。
本课程有哪些挑战?
在本课程的新版本中,您将遇到两种类型的挑战
- 排行榜,用于将您的代理性能与其他同学的性能进行比较。
- AI 与 AI 挑战,您可以在其中训练您的代理并与其他同学的代理竞争。
我发现了一个错误,或者我想改进课程
欢迎您的贡献 🤗
- 如果您在笔记本中发现了一个错误🐛,请打开一个问题并描述问题。
- 如果您想改进课程,您可以打开一个 Pull Request。
我还有问题
请在我们的Discord 服务器 #rl-discussions 中提出您的问题。
< > 在 GitHub 上更新