AWorld多智能体系统在GAIA排行榜上排名第一
摘要
大型语言模型(LLMs)的快速发展使得智能体能够利用各种外部工具解决复杂的现实问题。然而,随着智能体对工具的依赖增加,它们面临着新的挑战。多源的长上下文以及引入的噪声或不相关的工具输出可能会降低可靠性和准确性。这些问题凸显了基于智能体系统对更高稳定性的需求。
为了解决这个问题,我们提出了一种基于AWorld框架的鲁棒多智能体系统(MAS)架构。在我们的方法中,执行智能体(Execution Agent)在关键步骤调用守卫智能体(Guard Agent)来验证和纠正推理过程。这种设计有助于减少噪声相关的错误,提高问题解决的鲁棒性。
通过在GAIA测试数据集上进行严格的受控实验,我们表明,与单智能体系统(Single Agent System)或标准工具增强系统相比,引入守卫智能体显著提高了解决方案的有效性和稳定性。我们的研究结果证明了协作智能体角色在构建更可靠、更值得信赖的智能系统方面的实际价值。
多智能体系统(MAS)设计与实现
方法
- 基于AWorld框架开发了多智能体系统(MAS),利用“智能体即工具”机制,并引入守卫智能体进行逻辑验证。
- 自适应干预:执行智能体根据系统提示和上下文分析动态决定何时调用其他智能体。
- 逻辑验证:执行智能体启动问题解决过程,而守卫智能体则监控、纠正并提醒逻辑过程,从而提高解决方案的准确性。
- 守卫智能体使用与执行智能体相同的基础模型实现(例如,Gemini 2.5 Pro),确保了智能体的一致性和增强的协作能力。
实验
问题集
- GAIA测试集中的109个问题,分为L1/L2:56/53
- 问题特征:
- 办公相关:excel、word、ppt、txt、代码、下载工具
- 搜索相关:google搜索、维基等。
- 实验设置最大限度地减少了外部因素(如浏览器不稳定)的影响,为比较不同智能体构建方法提供了一致的受控环境。
实验版本设计
- Gemini 2.5 Pro:由单个Gemini 2.5 Pro模型直接进行问答,不调用工具或进行智能体协作。
- 单智能体系统(SAS):单个模型加工具,模型可以根据问题和上下文决定是仅使用外部工具还是独立回答(Gemini 2.5 Pro)。
- 多智能体系统(MAS):执行智能体+守卫智能体。在单智能体系统基础上,将守卫智能体作为额外的备选工具。执行智能体可以在问题解决过程中调用守卫智能体进行实时逻辑验证。
实验运行设置
- 每个版本对109项任务进行三次独立运行,所有任务均使用温度设置为0.1的Gemini 2.5 Pro模型。
- 对于因格式不正确而导致答案无效的任何任务,将重新运行该任务,直到获得有效答案。
- 每个版本在每轮报告109个问题的pass@1准确率。每个版本还报告所有运行的pass@3准确率。
实验结果
Gemini 2.5 Pro | SAS | Gemini 2.5 Pro vs SAS | MAS | SAS vs MAS | |
---|---|---|---|---|---|
第一轮 Pass@1 | 32.11% | 57.8% | 71.56% | ||
第二轮 Pass@1 | 30.28% | 64.22% | 65.14% | ||
第三轮 Pass@1 | 32.11% | 65.14% | 66.97% | ||
Pass@3 | 38.53% | 81.65% | +111.91% | 83.49% | +2.25% |
Pass@1_平均值 | 31.5% | 62.39% | +98.06% | 67.89% | +8.82% |
Pass@1_标准差 | 0.00863 | 0.03265 | +278.33% | 0.02701 | -17.3% |
主要发现
多智能体设置中守卫智能体的集成提高了问题解决的准确性
- 基础模型通过内部知识和测试时逻辑,平均正确解决了31.5%(pass@1)的GAIA问题。
- 单智能体系统在模型基础上引入了工具使用,通过获取真实世界数据来扩展上下文,显著提高了准确性(平均pass@1 = 62.39%,提高了近2倍)。
- 带有守卫智能体校准关键解决方案步骤的实验性多智能体版本进一步提高了准确性(平均pass@1 = 67.89%,比单智能体系统增加了8.82%;pass@3 = 83.49%,增加了2.25%)。
集成守卫智能体也增强了稳定性
- 在温度0.1时,基础模型的pass@1标准差为0.0086。
- 单智能体系统由于外部工具引入的不确定性,使分数方差增加了近4倍。
- 多智能体实验设置,由于守卫智能体的逻辑约束,将pass@1标准差降低到0.027,与单智能体系统相比降低了17.3%。
见解
优秀的问答模型并不等于优秀的工具使用者
基础模型(Gemini 2.5 Pro)开箱即用就能解决GAIA任务的很大一部分,这表明它在预训练期间获得了大量的相关知识。然而
- 该模型无法可靠地判断,对于给定问题,是应该完全依赖内部知识还是何时调用外部工具。
- 添加工具访问可能无法保留先前的(内部)解决方案路径。例如,至少存在一个任务,基础模型在pass@3中解决了该任务,但单智能体系统或实验版本未能解决。
不同的模式受不同上下文的刺激
- 基础单模型使用内部知识(类似于“背诵”或零阶模式)回答问题,由问答提示框定。
- 在“智能体”模式下,系统提示、工具列表和注入的输出构建了运行时上下文,使模型优先考虑外部信息,同时可能抑制内部知识搜索(类似于一阶推理)。
- 大多数模型缺乏足够的自我意识来可靠地决定何时/使用哪种模式。因此,一个好的问答模型不自动是一个好的工具使用者。
尽管基础模型已经能够处理很大一部分问题,但仍缺乏稳定的自主模式切换机制。鉴于实验观察到集成工具的智能体显著提高了准确性,此类智能体架构为通用智能解决方案提供了理想途径。
上下文优化与逻辑收敛:“第二双眼睛”效应
引入大量外部工具显著提高了问题解决的准确性,但同时也大大增加了上下文长度,对解决方案的稳定性提出了更高的要求。实验结果显示,与Gemini 2.5 Pro相比,单智能体系统的pass@1标准差增加了三倍。
借鉴国际数学奥林匹克竞赛中“解题者-审阅者”多智能体范式,我们的方法使执行智能体能够调用守卫智能体进行审查。这一过程实质上转变了对话视角,优化了上下文。在查询相同的底层模型时,这种机制促使模型关注可能此前因过长上下文而模糊的逻辑细节。守卫智能体随后生成更优的提示,作为执行智能体的新鲜上下文,帮助其重新聚焦注意力,并促进其向正确答案收敛。实验表明,引入守卫智能体使pass@1标准差相比单智能体系统降低了17.3%。
潜在改进
当前的实验版本作为快速技术验证。未来仍有显著的增强空间——例如,使守卫智能体能够独立调用其他工具(如搜索引擎),以实现更高质量的交叉验证和进一步提高稳定性。
进一步的研究和开发还可以专注于增强模型自主模式切换的能力。随着模型架构、自反思机制和自适应提示策略的进步,此类系统的未来迭代可能能够更可靠地判断何时利用内部知识以及何时调用外部工具。这种进展可以使AI智能体在广泛的复杂任务中实现更大的灵活性、效率和准确性。
作者
谢致天,吴秦彤,于承悦,庄宸屹,顾金杰
AWorld团队,Inclusion AI
GitHub 仓库
本技术报告介绍了我们新颖的框架和持续智能体学习算法,展示了它们通过动态、自演进学习系统提升智能体智能的潜力。