深度强化学习课程文档

多智能体系统设计

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

多智能体系统设计

在本节中,您将观看 Brian Douglas 制作的精彩多智能体系统介绍视频

在本视频中,Brian 讨论了如何设计多智能体系统。他特别以真空吸尘器的多智能体系统为例,并提出了这个问题:它们如何相互合作

我们有两种解决方案来设计这个多智能体强化学习系统 (MARL)。

去中心化系统

Decentralized
来源:多智能体强化学习导论

在去中心化学习中,每个智能体都与其他智能体独立训练。在给出的例子中,每个吸尘器都学习尽可能多地清洁地方,而不用关心其他吸尘器(智能体)正在做什么

好处是由于智能体之间不共享信息,因此这些吸尘器的设计和训练方式可以像我们训练单个智能体一样

这里的想法是,我们的训练智能体会将其他智能体视为环境动态的一部分,而不是作为智能体。

然而,这项技术的最大缺点是,由于其他智能体也在环境中交互,这将使环境变为非平稳的。并且这对许多强化学习算法来说是有问题的,这些算法无法在非平稳环境中达到全局最优

中心化方法

Centralized
来源:多智能体强化学习导论

在这种架构中,我们有一个高层流程来收集智能体的经验:经验缓冲区。我们将使用这些经验来学习一个通用策略

例如,在真空吸尘器示例中,观察结果将是

  • 真空吸尘器的覆盖地图。
  • 所有真空吸尘器的位置。

我们使用这种集体经验来训练一个策略,该策略将以整体上最有利的方式移动所有三个机器人。因此,每个机器人都在从他们的共同经验中学习。我们现在有了一个平稳的环境,因为所有智能体都被视为一个更大的实体,并且他们知道其他智能体策略的变化(因为这与他们自己的策略相同)。

如果我们回顾一下

  • 去中心化方法中,我们独立对待所有智能体,而不考虑其他智能体的存在。

    • 在这种情况下,所有智能体都将其他智能体视为环境的一部分
    • 这是一个非平稳环境条件,因此不保证收敛。
  • 中心化方法

    • 从所有智能体学习一个单一策略
    • 将环境的当前状态作为输入,策略输出联合行动。
    • 奖励是全局性的。
< > 在 GitHub 上更新