深度强化学习课程文档

多智能体强化学习 (MARL) 入门

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

多智能体强化学习 (MARL) 入门

从单智能体到多智能体

在第一个单元中,我们学习了在单智能体系统中训练智能体。当我们的智能体独自处在其环境中时:它没有与其他智能体合作或协作

Patchwork
自课程开始以来,你训练的智能体在所有环境中都形成的拼凑

当我们进行多智能体强化学习 (MARL) 时,我们处于有多个智能体在共同的环境中共享和交互的场景。

例如,你可以想象一个仓库,多个机器人需要导航到货物装卸点

Warehouse
[图片来自 upklyak](https://www.freepik.com/free-vector/robots-warehouse-interior-automated-machines_32117680.htm#query=warehouse robot&position=17&from_view=keyword) 来自 Freepik

或者一条有几辆自动驾驶汽车的道路。

Self driving cars
[图片来自 jcomp](https://www.freepik.com/free-vector/autonomous-smart-car-automatic-wireless-sensor-driving-road-around-car-autonomous-smart-car-goes-scans-roads-observe-distance-automatic-braking-system_26413332.htm#query=self driving cars highway&position=34&from_view=search&track=ais) 来自 Freepik

在这些示例中,我们有多个智能体在环境中相互交互,以及与其他智能体交互。这意味着要定义一个多智能体系统。但首先,让我们了解不同类型的多智能体环境。

不同类型的多智能体环境

鉴于在多智能体系统中,智能体与其他智能体进行交互,我们可以拥有不同类型的环境

  • 协作环境:智能体需要最大化共同利益

例如,在仓库中,机器人必须协作以高效(尽可能快)地装卸货物

  • 竞争/对抗环境:在这种情况下,智能体希望通过最小化对手的利益来最大化自身的利益

例如,在网球比赛中,每个智能体都希望击败另一个智能体

Tennis
  • 对抗和协作的混合:就像在我们的 SoccerTwos 环境中一样,两个智能体组成一个团队(蓝色或紫色):它们需要相互合作并击败对方团队。
SoccerTwos
此环境由Unity MLAgents 团队 创建

所以现在我们可能会想知道:我们如何设计这些多智能体系统?换句话说,我们如何在多智能体环境中训练智能体

< > 更新 在 GitHub 上