构建协作式人工智能:如何训练LLM和VLM代理协同工作
单代理系统正在向多代理协作转变,后者能以更高的效率处理更复杂的任务。这种转变在结合了大型语言模型(LLM)和视觉-语言模型(VLM)的系统中尤为明显。但是,我们究竟如何训练这些多样化的人工智能代理协同工作呢?
多代理协作的基础
其核心是,有效的代理协作需要三个基本组件:精心设计的架构、清晰的通信协议和适当的训练方法。这些元素构成了任何成功的多代理系统的支柱。
架构方法
大多数成功的协作系统都采用模块化架构,为不同的代理分配特定的角色。例如,Shen 等人 [7] 实施了一个在规划、执行和总结组件之间明确分离的框架。这种模块化方法允许每个代理专注于其最擅长的领域,同时为集体目标做出贡献。
同样,Zhang 等人 [3] 开发了一个系统,其中代理被组织成处理感知、记忆、通信、规划和执行的模块。这种清晰的职责分离使得效率比结构较差的方法提高了40%以上 [3]。
另一种有前景的架构模式是基于协调器的方法。Chen 等人 [4] 展示了中央LLM如何通过自然语言提示有效地协调多个VLM,在视觉推理任务中达到了最先进的性能。这种方法利用语言模型的推理能力来指导专业视觉模型在最需要的地方发挥作用。
通信协议
代理之间共享信息的方式与它们的个体能力同等重要。最近的研究中出现了几种有效的通信方法
消息传递:一种直接的方法,代理通过结构化消息显式地共享信息。这种方法出现在多个成功的实现中,包括 Wang 等人 [9] 和 Zhang 等人 [3]。
意图广播:Qiu 等人 [7] 和 Shen 等人 [6] 使用的这种方法,涉及代理在执行前共享其计划的行动或目标,允许其他代理相应地调整其行为。
自然语言对话:Chen 等人 [4] 证明,使用自然语言作为代理之间的通信媒介可以非常有效,尤其是在语言模型和视觉模型之间进行协调时。
多轮交互:Yang 等人 [8] 实现了一种“内心独白”方法,其中代理进行多轮查询和回答,通过对话改进其理解。
训练方法
在架构和通信协议都已确定的情况下,我们如何实际训练这些系统?研究揭示了几种有效的方法
从预训练模型开始
大多数成功的协作系统不是从头开始构建代理。相反,它们利用现有的预训练模型并对其进行调整以进行协作。这种方法利用了LLaMA-2 [6,3] 或 BLIP-2 [8] 等模型中已有的强大功能。
Chen 等人 [4] 通过使用预训练的 VLM 作为冻结组件,同时对 LLM 协调器进行微调,展示了这一点。该策略保留了单个模型的专业能力,同时优化了它们的集体行为。
指令调优的监督学习
对于许多系统来说,监督学习提供了坚实的基础。Chen 等人 [4] 利用带有语言建模损失的指令调优来适应他们的LLM协调器在多代理场景中的应用。这种方法有助于模型从示例中学习特定的协作行为。
强化学习优化
为了改进协作行为,强化学习(RL)被证明很有价值。Yang 等人 [8] 采用了两阶段方法:监督微调,然后是带有KL惩罚的强化学习,以防止模型偏离初始模型。Qiu 等人 [7] 也利用RL与任务特定损失函数进行集体优化。
模仿学习
当专家知识可用时,模仿学习提供了一条有效的路径。Yang 等人 [5] 实现了跨模态模仿学习,其中 VLM 代理从 LLM 专家那里学习。这种方法在某些任务上带来了 20-70% 的成功率提升 [5]。
实际应用与性能提升
这些协作方法不只停留在理论层面——它们在各个领域都带来了可衡量的改进
Liu 等人 [10] 使用动态 LLM 代理网络和推理时代理选择,在数学推理和代码生成任务上取得了约 13% 的改进。
Fang 等人 [2] 展示了使用规划代理与子代理在漏洞利用任务中实现了高达 4.5 倍的改进。
Yang 等人 [8] 报告称,通过其“内心独白多模态优化”方法,在视觉蕴含任务上取得了 10.4% 的改进。
Wang 等人 [9] 的多代理协作框架在视觉问答任务上将准确率提高了 0.1 到 6.1 个百分点。
挑战与未来方向
尽管取得了令人瞩目的进展,但在开发有效的协作式人工智能系统方面仍存在一些挑战
计算效率
同时运行多个复杂的模型需要大量的计算资源。像参数高效微调(例如,Zhang 等人 [3] 使用的低秩适应)这样的技术有助于解决这个问题,但效率仍然是核心问题。
可伸缩性
目前的方法通常难以扩展到少量代理之外。开发能够在代理数量增加时保持有效性的方法代表了研究的一个重要前沿。
标准化评估
该领域目前缺乏评估协作式人工智能系统的标准化基准,这使得不同方法之间的直接比较变得具有挑战性。建立通用指标和评估任务将加速进展。
平衡专业化和泛化能力
许多现有系统擅长特定任务,但在推广到新场景时却举步维艰。在专业能力和灵活性之间找到正确的平衡仍然是一个未解决的挑战。
结论
训练LLM和VLM代理协同工作代表了人工智能研究中一个有前景的前沿领域。通过结合模块化架构、清晰的通信协议和复杂的训练方法,研究人员正在创建超越单个模型能力的系统。
随着该领域的持续发展,我们可以期待看到越来越复杂的协作式人工智能系统,它们将利用不同模型的优势来解决复杂的实际问题。此处概述的方法为构建下一代协作式人工智能提供了坚实的基础。
参考文献
[1] Bo Pan 等人,“Agent-Coord: Visually Exploring Coordination Strategy for LLM-Based Multi-Agent Collaboration.”
[2] Richard Fang 等人,“Teams of LLM Agents Can Exploit Zero-Day Vulnerabilities.”
[3] Hongxin Zhang 等人,“Building Cooperative Embodied Agents Modularly with Large Language Models.”
[4] Liangyu Chen 等人,“Large Language Models Are Visual Reasoning Coordinators.”
[5] Yijun Yang 等人,“Embodied Multi-Modal Agent Trained by an LLM from a Parallel TextWorld.”
[6] Weizhou Shen 等人,“Small LLMs Are Weak Tool Learners: A Multi-LLM Agent.”
[7] Xihe Qiu 等人,“Towards Collaborative Intelligence: Propagating Intentions and Reasoning for Multi-Agent Coordination with Large Language Models.”
[8] Diji Yang 等人,“Tackling Vision Language Tasks Through Learning Inner Monologues.”
[9] Zeqing Wang 等人,“Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering.”
[10] Zijun Liu 等人,“A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration.”