深度强化学习课程文档

多智能体强化学习 (MARL) 简介

深度强化学习课程

单元 0. 欢迎来到本课程

单元 1. 深度强化学习简介

奖励单元 1. Huggy 深度强化学习简介

直播 1. 课程如何运作、问答以及与 Huggy 一起玩

单元 2. Q-Learning 简介

单元 3. 基于 Atari 游戏的深度 Q-Learning

奖励单元 2. 使用 Optuna 进行自动超参数调整

单元 4. 基于 PyTorch 的策略梯度

单元 5. Unity ML-Agents 简介

单元 6. 机器人环境中的 Actor Critic 方法

单元 7. 多智能体和 AI vs AI 简介

简介多智能体强化学习 (MARL) 简介设计多智能体系统自博弈让我们训练我们的足球队来击败你同学的队伍 (AI vs. AI) 测验结论扩展阅读

单元 8. 第 1 部分近端策略优化 (PPO)

单元 8. 第 2 部分基于 Doom 的近端策略优化 (PPO)

奖励单元 3. 强化学习中的高级主题

奖励单元 5. 基于 Godot RL Agents 的模仿学习

认证与祝贺

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

多智能体强化学习 (MARL) 简介

从单智能体到多智能体

在第一个单元中，我们学习了如何在单智能体系统中训练智能体。当我们的智能体独自处于环境中时：它没有与其他智能体合作或协同。

Patchwork — 自课程开始以来，您训练智能体的所有环境的汇集

当我们进行多智能体强化学习 (MARL) 时，我们处于多个智能体在公共环境中共享和交互的情况。

例如，您可以想象一个仓库，其中多个机器人需要导航以装卸包裹。

Warehouse — [图片来源: upklyak](https://www.freepik.com/free-vector/robots-warehouse-interior-automated-machines_32117680.htm#query=warehouse robot&position=17&from_view=keyword)，来自 Freepik

或者一条有若干自动驾驶汽车的道路。

Self driving cars — [图片来源: jcomp](https://www.freepik.com/free-vector/autonomous-smart-car-automatic-wireless-sensor-driving-road-around-car-autonomous-smart-car-goes-scans-roads-observe-distance-automatic-braking-system_26413332.htm#query=self driving cars highway&position=34&from_view=search&track=ais)，来自 Freepik

在这些例子中，我们有多个智能体在环境以及与其他智能体互动。这意味着要定义一个多智能体系统。但首先，让我们了解不同类型的多智能体环境。

不同类型的多智能体环境

鉴于在多智能体系统中，智能体与其他智能体互动，我们可以有不同类型的环境

合作环境：您的智能体需要最大化共同利益。

例如，在仓库中，机器人必须协作以高效地（尽可能快地）装卸包裹。

竞争/对抗环境：在这种情况下，您的智能体希望通过最小化对手的利益来最大化其利益。

例如，在网球比赛中，每个智能体都想击败另一个智能体。

Tennis

对抗和合作的混合：就像在我们的 SoccerTwos 环境中一样，两个智能体是一个团队（蓝色或紫色）的一部分：他们需要相互合作并击败对方团队。

SoccerTwos — 这个环境由 Unity MLAgents 团队制作

那么现在我们可能会想：我们如何设计这些多智能体系统？换句话说，我们如何在多智能体环境中训练智能体？

< > 在 GitHub 上更新

←简介设计多智能体系统→