智能体课程文档
什么是 GAIA?
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
什么是 GAIA?
GAIA 是一个**旨在评估人工智能助手在需要核心能力(如推理、多模态理解、网络浏览和熟练工具使用)的真实世界任务中的表现的基准测试**。
它在论文 *”GAIA: 一个通用人工智能助手基准测试”* 中提出。
该基准测试包含**466 个精心策划的问题**,这些问题**对人类来说概念上很简单**,但**对当前的人工智能系统来说却极具挑战性**。
为了说明差距
- **人类**:约 92% 的成功率
- 带插件的 GPT-4: ~15%
- **深度研究 (OpenAI)**:在验证集上的成功率为 67.36%
GAIA 突出了当前 AI 模型的局限性,并为评估通用 AI 助手的进展提供了严格的基准。
🌱 GAIA 的核心原则
GAIA 精心围绕以下支柱设计
- 🔍 **真实世界难度**:任务需要多步骤推理、多模态理解和工具交互。
- 🧾 **人类可解释性**:尽管对 AI 来说难度很大,但任务对人类来说概念上仍然简单易懂。
- 🛡️ **不可游戏性**:正确答案需要完全执行任务,使暴力破解无效。
- 🧰 **评估的简单性**:答案简洁、真实且明确——非常适合基准测试。
难度级别
GAIA 任务分为**三个复杂度递增的级别**,每个级别测试特定的技能
- **级别 1**:需要少于 5 个步骤和最少的工具使用。
- **级别 2**:涉及更复杂的推理以及多个工具之间的协调,并且有 5-10 个步骤。
- **级别 3**:需要长期规划和各种工具的高级集成。
一个困难的 GAIA 问题示例
2008 年的画作《乌兹别克斯坦刺绣》中显示的哪些水果曾作为后来被用作电影《最后的航程》中浮动道具的远洋客轮 1949 年 10 月早餐菜单的一部分?以逗号分隔的列表形式给出这些物品,根据它们在画作中从 12 点钟位置开始的顺时针排列顺序排列。使用每种水果的复数形式。
如您所见,这个问题从几个方面挑战了 AI 系统
- 需要**结构化的响应格式**
- 涉及**多模态推理**(例如,分析图像)
- 需要**多跳检索**相互依赖的事实
- 识别画作中的水果
- 发现《最后的航程》中使用的远洋客轮
- 查找该船 1949 年 10 月的早餐菜单
- 需要**正确的排序**和高级规划才能按正确顺序解决
这种任务突出了独立大型语言模型经常不足的地方,使得 GAIA 成为**基于代理的系统**的理想基准,这些系统可以推理、检索并执行多步骤和多模态任务。
实时评估
为了鼓励持续基准测试,**GAIA 在 Hugging Face 上提供了一个公共排行榜**,您可以在其中使用 **300 个测试问题**测试您的模型。
👉 在这里查看排行榜
想更深入地了解 GAIA 吗?
< > 在 GitHub 上更新