深度强化学习课程文档
多智能体强化学习(MARL)简介
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
多智能体强化学习(MARL)简介
从单一智能体到多智能体
在第一个单元中,我们学习了在单一智能体系统中训练智能体。当我们的智能体独自处于其环境中时:它不会与其他智能体合作或协作。

当我们进行多智能体强化学习(MARL)时,我们处于一种拥有多个智能体的境地,这些智能体在一个共同的环境中共享并相互作用。
例如,您可以想象一个仓库,其中多个机器人需要导航来装卸包裹。

或者一条有几辆自动驾驶汽车的道路。

在这些示例中,我们有多个智能体在环境中并与其他智能体相互作用。这需要定义一个多智能体系统。但首先,让我们了解不同类型的多智能体环境。
不同类型的多智能体环境
鉴于在多智能体系统中,智能体与其他智能体相互作用,我们可以有不同类型的环境。
- 合作环境:您的智能体需要最大化共同利益。
例如,在仓库中,机器人必须协作以高效(尽可能快)地装卸包裹。
- 竞争/对抗环境:在这种情况下,您的智能体希望通过最小化对手的利益来最大化自身的利益。
例如,在网球比赛中,每个智能体都想击败另一个智能体。

- 对抗与合作的混合环境:就像我们的 SoccerTwos 环境一样,两个智能体属于一个团队(蓝色或紫色):他们需要相互合作并击败对手团队。

所以现在我们可能会想:我们如何设计这些多智能体系统?换句话说,我们如何在一个多智能体环境中训练智能体?
< > 在 GitHub 上更新