深度强化学习课程文档

引言

深度强化学习课程

第 0 单元：课程欢迎辞

单元1. 深度强化学习导论

奖励单元1. Huggy深度强化学习导论

直播1. 课程如何运作，问答环节，以及与Huggy玩耍

单元2. Q-Learning导论

单元3. 雅达利游戏深度Q-Learning

奖励单元2. 使用Optuna进行自动超参数调优

单元4. PyTorch策略梯度

单元5. Unity ML-Agents导论

单元6. 机器人环境Actor-Critic方法

单元7. 多智能体和AI对AI导论

简介多智能体强化学习 (MARL) 简介设计多智能体系统自我博弈 (Self-Play) 让我们训练一支足球队来击败同学的队伍 (AI vs. AI) 测验结论补充阅读

单元8. 第1部分近端策略优化 (PPO)

单元8. 第2部分使用Doom的近端策略优化 (PPO)

奖励单元3. 强化学习高级主题

奖励单元5. 使用Godot RL Agents进行模仿学习

结业证书和祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

简介

自本课程开始以来，我们学习了在*单智能体系统*中训练智能体，其中我们的智能体在环境中是独自存在的：它**不与其他智能体合作或协作**。

这效果很好，而且单智能体系统在许多应用中都很有用。

Patchwork — 自课程开始以来你训练过的所有环境的拼凑图

但是，作为人类，**我们生活在一个多智能体的世界里**。我们的智能来自于与其他智能体的互动。因此，我们的**目标是创造能够与其他人类和其他智能体互动的智能体**。

因此，我们必须研究如何在*多智能体系统*中训练深度强化学习智能体，以构建能够适应、协作或竞争的强大智能体。

所以今天我们将要**学习多智能体强化学习 (MARL) 这个引人入胜的主题的基础知识**。

最激动人心的部分是，在本单元中，你将在多智能体系统中训练你的第一个智能体：**一支需要击败对手的 2vs2 足球队**。

课程维护通知 🚧

请注意，此**深度强化学习课程现在处于低维护状态**。然而，它**仍然是学习深度强化学习理论和实践的绝佳资源**。

请牢记以下几点

单元 7 (AI vs AI) ：此功能目前无法使用。但是，你仍然可以训练你的智能体踢足球并观察其表现。但 AI vs AI 足球的排行榜已关闭。

SoccerTwos — 此环境由Unity MLAgents 团队创建。

那么，让我们开始吧！

< > 在 GitHub 上更新

←补充阅读多智能体强化学习 (MARL) 简介→

© . This site is unofficial and not affiliated with Hugging Face, Inc.