AutoBench Run 2 结果出炉!惊喜:Gemini 2.5 Pro 并非最佳经济型思维模型
使用我们全新的交互式排行榜,探索 o4 Mini、Gpt 4.1 Mini、Gemini 2.5 Pro、Claude 3.7 Sonnet:thinking、DeepSeek V3-0324 以及所有最新模型的性能!
继我们首次介绍 AutoBench 之后,我们很高兴地宣布第二轮主要基准测试已完成,更令人兴奋的是,AutoBench 交互式排行榜已上线!这个新工具托管在 Hugging Face Spaces 上,提供了一种便捷动态的方式来探索最新评估的丰富结果。 直接查看结果:AutoBench 排行榜:前 25 名 LLM
第二轮测试于2025 年 4 月 28 日完成,评估了 25 个尖端大型语言模型 (LLM),包括新模型,如 o4 Mini
、Gpt 4.1 Mini
、Gemini 2.5 Pro
、Claude 3.7 Sonnet: Thinking
和 DeepSeek V3-0324
。我们不仅使用我们独特的“集体 LLM 作为评判”方法对它们的对话质量进行了排名,还纳入了关键的成本和延迟指标,提供了更全面的模型性能视图。
AutoBench Run 2:方法与规模
AutoBench 采用独特的评估流程。详情请参阅 AutoBench Hugging Face 页面。该方法的主要特点是:
1. LLM 生成问题: 由强大的 LLM 在众多领域(逻辑、编码、历史、科学等)生成高质量、多样化的问题,并进行排名以确保相关性。
2. LLM 作为评判: AutoBench 的核心是使用多个 LLM 集体对被测试模型生成的响应质量进行排名。
新版本的 AutoBench 将很快以开源形式发布,与 1.0 版本一样,它提供了更高效的排名流程,并且旨在处理来自“思维”模型的响应。这使我们能够使用多个强大的思维模型进行答案和排名生成,从而提高了基准的整体质量。
运行 2 详情
- 完成日期: 2025 年 4 月 28 日
- 测试模型: 25 个当代 LLM(22 个排名器)
- 迭代次数: 约 310 次(唯一排名问题)
- 生成答案 7,700+
- 收集成对排名 180,000+
- 平均答案长度: 10k+ 令牌
- 新指标
- 平均成本: 每个响应的成本(美元美分)。
- 平均延迟: 平均响应持续时间(秒)。
- P99 延迟: 第 99 百分位响应持续时间(秒),强调一致性。
请注意,AutoBench 旨在为 LLM 生成各种领域(编码、创意写作、新闻、常识、语法、历史、逻辑、数学、科学和技术)的极具挑战性的问题。答案长度从快速模型的 2k 令牌到“重度思考者”如 DeepSeek R1 的 20k+ 令牌不等。
验证:AutoBench 与其他基准的比较
对于任何新的基准,特别是像 AutoBench 这样的自动化基准,一个关键问题是它与现有、受信任的评估方法,尤其是涉及人类偏好的方法,的对齐程度如何。为了验证我们的“LLM 作为评判”方法,我们将 AutoBench Run 2 的排名与两个著名的外部基准进行了比较:
- Chatbot Arena (CBA): 一个广受尊重的基准,基于众包的人类投票,并排比较 LLM 输出。
- 人工智能分析指数 (AAII): 一个综合指数,评估 LLM 在推理、知识、数学和编码任务中的表现。
结果显示出令人信服的一致性:
- AutoBench vs. Chatbot Arena: 82.51% 的强相关性。
- AutoBench vs. AAII: 83.74% 的良好相关性。
这种强相关性,特别是与以人类偏好为主导的 Chatbot Arena 的相关性,极大地增强了 AutoBench 自动化方法的可信度。这表明我们的“LLM 作为评判”系统有效地捕捉了模型质量和能力中的细微差别,与人类评估产生共鸣,为评估 LLM 性能提供了一种可靠且可扩展的替代方案。
主要发现:AutoBench 总体排名
根据 AutoBench LLM 评判得分,本轮表现最佳的模型是: 1. o4-mini-2025-04-16
: 4.57 2. gemini-2.5-pro-preview-03-25
: 4.46 3. claude-3.7-sonnet:thinking
: 4.39 4. gpt-4.1-mini
: 4.34 5. grok-3-beta
: 4.34
令我们惊讶的是,与大多数其他基准测试相反,o4-mini 在几乎所有领域都表现最佳。总的来说,所有 Open AI 模型在所有需要高“推理”技能的领域(如“数学”和“逻辑”)都名列前茅。
性能、成本与延迟之间的权衡
虽然 AutoBench 分数反映了判断质量,但实际部署需要考虑效率。我们的分析揭示了显著的权衡:
顶级表现者: 正如预期,在 AutoBench 评分中获得最高分的模型,如
claude-3.7-sonnet:thinking
、grok-3-beta
和gemini-2.5-pro-preview-03-25
,与更小更快的模型相比,API 成本高出 1 甚至 2 个数量级。价值领导者: 像
gemini-2.0-flash-001
、gemma-3-27b-it
、gpt-4o-mini
和几种 Llama 变体等模型提供了引人注目的价值主张,以更低的成本和通常更快的响应时间提供可观的性能。显示了由 AutoBench 计算的各种 LLM 的性能排名与它们对应的每响应平均成本(美元)之间的比较图。请注意,对数刻度显示价格范围跨越 2 个数量级。
延迟洞察: P99 延迟指标极具启发性。像
gemini-2.0-flash-001
和nova-pro-v1
这样的模型表现出一致的速度(低 P99),而像deepSeek-R1
和deepSeek-V3-0324
这样的模型则容易出现偶尔的、显著的延迟(高 P99),这可能会影响用户体验。这些结果与每个模型的平均回答时间测量结果一致。AutoBench 性能排名与评估 LLM 响应持续时间第 99 百分位 (P99) 之间的关系。它突出了模型的一致速度(或慢速),显示了对用户体验的潜在影响,特别是对于异常的、较慢的响应。
这些多维度的结果强调了根据特定应用需求选择模型的重要性,平衡质量、预算和响应能力。交互式排行榜专门旨在帮助用户应对这些权衡。
特定领域优势与劣势
AutoBench 评估了各个领域的性能,揭示了模型的特定优势:
o4-mini-2025-04-16
: 展现出广泛的卓越性,在数学和科学等具有挑战性的领域表现出色。gemini-2.5-pro-preview-03-25
: 在技术、通识文化和历史方面表现出特别的优势。- 数学领域: 对许多模型来说仍然是一个困难领域,凸显了其作为 LLM 能力区分器的价值。
您可以在排行榜上按领域筛选,以进一步探索这些细粒度洞察。
探索结果:AutoBench 交互式排行榜
排行榜使用 Gradio 构建并托管在 Hugging Face Spaces 上,使您能够直观且富有洞察力地探索我们的综合基准数据。 在此访问排行榜: https://huggingface.co/spaces/AutoBench/AutoBench-Leaderboard
主要功能包括:
- 多指标排序: 按 AutoBench 分数、成本、平均延迟或 P99 延迟对模型进行排名。
- 交互式图表: 可视化性能、成本和速度之间复杂的权衡。
- 领域筛选: 分析模型在编码、逻辑或创意写作等特定领域的性能。
- 最新比较: 轻松比较我们 2025 年 4 月运行中评估的最新 LLM。
数据发布与未来计划
本着透明和社区协作的精神,我们正在发布:
- 数据样本: 运行中具有代表性的问题/答案/排名样本。
- 详细迭代数据: 用于深入分析的细粒度、迭代级结果。
所有数据、代码和相关信息请访问 AutoBench Hugging Face 主页:https://huggingface.co/AutoBench
此外,本次运行由显著改进的 AutoBench 引擎提供支持,提高了效率和速度。我们正准备在不久的将来发布 AutoBench 1.1(开源)——敬请期待!
支持与致谢
我们衷心感谢 Translated (https://translated.com/) 对 AutoBench 项目的慷慨支持,他们提供了宝贵的 LLM 计算积分。这项支持对于本次运行中进行的大量评估至关重要。
我们还要向以下个人表示深切感谢,他们在 AutoBench 的开发和执行过程中提供了极其宝贵的帮助和富有洞察力的反馈
他们的专业知识和指导对 AutoBench 项目来说是无价的。
参与其中
AutoBench 是迈向更稳健、可扩展和面向未来的 LLM 评估的一步。我们邀请您探索代码、运行基准测试、为它的发展做出贡献,并加入关于 LLM 评估未来的讨论!
- 探索代码和数据: Hugging Face AutoBench 仓库
- 在 Spaces 上尝试我们的演示: AutoBench 1.0 演示
- 贡献: 通过 Hugging Face 仓库提交拉取请求或问题,帮助我们提出新主题、完善提示或改进加权算法。
我们强烈鼓励 AI 社区参与交互式排行榜,探索已发布的数据,并分享反馈。AutoBench 旨在成为一个动态发展的资源,我们期待未来的运行和 AutoBench 1.0 的开源发布。