智能体课程文档

实战

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

实战

既然您已准备好深入创建您的最终 Agent,那么接下来让我们看看如何提交它以供评审。

数据集

此排行榜中使用的数据集包含从 GAIA 验证集第一级问题中提取的 20 个问题。

所选问题根据回答问题所需的工具和步骤数量进行筛选。

根据 GAIA 基准的当前情况,我们认为让您尝试在第一级问题中达到 30% 是一个公平的测试。

GAIA current status!

流程

现在您心中最大的疑问可能是:“我该如何开始提交呢?”

对于本单元,我们创建了一个 API,允许您获取问题并发送答案以进行评分。以下是路由的摘要(有关交互式详细信息,请参阅实时文档

  • GET /questions:检索过滤后的完整评估问题列表。
  • GET /random-question:从列表中获取单个随机问题。
  • GET /files/{task_id}:下载与给定任务 ID 相关联的特定文件。
  • POST /submit:提交 Agent 答案,计算分数,并更新排行榜。

提交函数将以精确匹配的方式将答案与标准答案进行比较,因此请很好地提示它!GAIA 团队在此处分享了一个您的 Agent 的提示示例(在本课程中,请确保您的提交中不包含“FINAL ANSWER”字样,只需让您的 Agent 回答答案,别无其他)。

🎨 让模板成为您自己的!

为了演示与 API 交互的过程,我们提供了一个基本模板作为起点。

请随意——并积极鼓励——更改、添加或完全重构它!以最适合您的方法和创造力的任何方式修改它。

为了提交此模板,需要计算 API 所需的 3 个信息:

  • 用户名:您的 Hugging Face 用户名(在此通过 Gradio 登录获取),用于标识您的提交。
  • 代码链接(agent_code):指向您的 Hugging Face Space 代码(.../tree/main)的 URL,用于验证目的,因此请保持您的空间公开。
  • 答案(answers):您的 Agent 生成的响应列表({"task_id": ..., "submitted_answer": ...}),用于评分。

因此,我们鼓励您首先在您自己的 Hugging Face 个人资料上复制此模板

🏆 在此处查看排行榜

友情提示:此排行榜仅供娱乐!我们知道可以不经完全验证就提交分数。如果出现太多高分而没有公开链接支持的情况,我们可能需要审查、调整或删除某些条目,以保持排行榜的实用性。排行榜将显示您的空间代码库链接,由于此排行榜仅面向学生,如果您获得了引以为傲的分数,请保持您的空间公开。

< > 在 GitHub 上更新