深度强化学习课程文档

设计多智能体系统

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

设计多智能体系统

在本节中,您将观看由 Brian Douglas 制作的关于多智能体的精彩介绍。

在视频中,Brian 讨论了如何设计多智能体系统。他特别以一个吸尘器多智能体系统为例,并提出了问题:**它们如何才能相互协作**?

我们有两个解决方案来设计这个多智能体强化学习系统 (MARL)。

去中心化系统

Decentralized
来源: 多智能体强化学习简介

在去中心化学习中,**每个智能体都独立于其他智能体进行训练**。在给定的示例中,每个吸尘器都学习尽可能多地清洁区域,**而不关心其他吸尘器(智能体)在做什么**。

好处在于,**由于智能体之间不共享信息,因此可以像训练单个智能体一样设计和训练这些吸尘器**。

这里的想法是,**我们的训练智能体将其他智能体视为环境动力学的一部分**。而不是作为智能体。

但是,此技术的最大缺点是它将**使环境变得非平稳**,因为随着其他智能体也在环境中交互,底层的马尔可夫决策过程会随着时间推移而发生变化。这对许多强化学习算法来说是有问题的,**这些算法在非平稳环境中无法达到全局最优**。

集中式方法

Centralized
来源: 多智能体强化学习简介

在此架构中,**我们有一个高级流程来收集智能体的经验**:经验缓冲区。我们将使用这些经验**来学习一个共同的策略**。

例如,在吸尘器示例中,观察将是

  • 吸尘器的覆盖地图。
  • 所有吸尘器的位置。

我们使用这种集体经验**来训练一个策略,该策略将以整体上最有利的方式移动所有三个机器人**。因此,每个机器人都在从他们的共同经验中学习。我们现在有一个平稳的环境,因为所有智能体都被视为一个更大的实体,并且它们知道其他智能体策略的变化(因为它们与自己的策略相同)。

如果我们回顾一下

  • 去中心化方法中,我们**将所有智能体视为独立的,而不考虑其他智能体的存在**。

    • 在这种情况下,所有智能体**将其他智能体视为环境的一部分**。
    • **这是一个非平稳环境条件**,因此没有收敛保证。
  • 集中式方法

    • **从所有智能体中学习一个单一的策略**。
    • 以环境的当前状态作为输入,策略输出联合动作。
    • 奖励是全局的。
< > 更新 在 GitHub 上