AutoBench Run 2 结果出炉!惊喜:Gemini 2.5 Pro 并非最佳经济型思维模型

社区文章 发布于 2025 年 4 月 29 日

使用我们全新的交互式排行榜,探索 o4 Mini、Gpt 4.1 Mini、Gemini 2.5 Pro、Claude 3.7 Sonnet:thinking、DeepSeek V3-0324 以及所有最新模型的性能!

banner

继我们首次介绍 AutoBench 之后,我们很高兴地宣布第二轮主要基准测试已完成,更令人兴奋的是,AutoBench 交互式排行榜已上线!这个新工具托管在 Hugging Face Spaces 上,提供了一种便捷动态的方式来探索最新评估的丰富结果。   直接查看结果:AutoBench 排行榜:前 25 名 LLM

image/png

第二轮测试于2025 年 4 月 28 日完成,评估了 25 个尖端大型语言模型 (LLM),包括新模型,如 o4 MiniGpt 4.1 MiniGemini 2.5 ProClaude 3.7 Sonnet: ThinkingDeepSeek V3-0324。我们不仅使用我们独特的“集体 LLM 作为评判”方法对它们的对话质量进行了排名,还纳入了关键的成本延迟指标,提供了更全面的模型性能视图。  

AutoBench Run 2:方法与规模

AutoBench 采用独特的评估流程。详情请参阅 AutoBench Hugging Face 页面。该方法的主要特点是:

1.  LLM 生成问题: 由强大的 LLM 在众多领域(逻辑、编码、历史、科学等)生成高质量、多样化的问题,并进行排名以确保相关性。

2.  LLM 作为评判: AutoBench 的核心是使用多个 LLM 集体对被测试模型生成的响应质量进行排名。

新版本的 AutoBench 将很快以开源形式发布,与 1.0 版本一样,它提供了更高效的排名流程,并且旨在处理来自“思维”模型的响应。这使我们能够使用多个强大的思维模型进行答案和排名生成,从而提高了基准的整体质量。

运行 2 详情   

  • 完成日期: 2025 年 4 月 28 日
  • 测试模型: 25 个当代 LLM(22 个排名器)
  • 迭代次数: 约 310 次(唯一排名问题)
  • 生成答案 7,700+
  • 收集成对排名 180,000+
  • 平均答案长度: 10k+ 令牌
  • 新指标
    • 平均成本: 每个响应的成本(美元美分)。
    • 平均延迟: 平均响应持续时间(秒)。
    • P99 延迟: 第 99 百分位响应持续时间(秒),强调一致性。

请注意,AutoBench 旨在为 LLM 生成各种领域(编码、创意写作、新闻、常识、语法、历史、逻辑、数学、科学和技术)的极具挑战性的问题。答案长度从快速模型的 2k 令牌到“重度思考者”如 DeepSeek R1 的 20k+ 令牌不等。  

验证:AutoBench 与其他基准的比较

对于任何新的基准,特别是像 AutoBench 这样的自动化基准,一个关键问题是它与现有、受信任的评估方法,尤其是涉及人类偏好的方法,的对齐程度如何。为了验证我们的“LLM 作为评判”方法,我们将 AutoBench Run 2 的排名与两个著名的外部基准进行了比较:  

  • Chatbot Arena (CBA): 一个广受尊重的基准,基于众包的人类投票,并排比较 LLM 输出。
  • 人工智能分析指数 (AAII): 一个综合指数,评估 LLM 在推理、知识、数学和编码任务中的表现。

结果显示出令人信服的一致性:  

  • AutoBench vs. Chatbot Arena: 82.51% 的强相关性。
  • AutoBench vs. AAII: 83.74% 的良好相关性。

这种强相关性,特别是与以人类偏好为主导的 Chatbot Arena 的相关性,极大地增强了 AutoBench 自动化方法的可信度。这表明我们的“LLM 作为评判”系统有效地捕捉了模型质量和能力中的细微差别,与人类评估产生共鸣,为评估 LLM 性能提供了一种可靠且可扩展的替代方案。  

主要发现:AutoBench 总体排名

根据 AutoBench LLM 评判得分,本轮表现最佳的模型是:   1.  o4-mini-2025-04-16 4.57 2.  gemini-2.5-pro-preview-03-25 4.46 3.  claude-3.7-sonnet:thinking 4.39 4.  gpt-4.1-mini 4.34 5.  grok-3-beta 4.34

令我们惊讶的是,与大多数其他基准测试相反,o4-mini 在几乎所有领域都表现最佳。总的来说,所有 Open AI 模型在所有需要高“推理”技能的领域(如“数学”和“逻辑”)都名列前茅。

完整的、可排序的排名可在交互式排行榜上查看   

性能、成本与延迟之间的权衡

虽然 AutoBench 分数反映了判断质量,但实际部署需要考虑效率。我们的分析揭示了显著的权衡:  

  • 顶级表现者: 正如预期,在 AutoBench 评分中获得最高分的模型,如 claude-3.7-sonnet:thinkinggrok-3-betagemini-2.5-pro-preview-03-25,与更小更快的模型相比,API 成本高出 1 甚至 2 个数量级。

  • 价值领导者:gemini-2.0-flash-001gemma-3-27b-itgpt-4o-mini 和几种 Llama 变体等模型提供了引人注目的价值主张,以更低的成本和通常更快的响应时间提供可观的性能。Graph comparing rank vs cost as calculated by AutoBench 显示了由 AutoBench 计算的各种 LLM 的性能排名与它们对应的每响应平均成本(美元)之间的比较图。请注意,对数刻度显示价格范围跨越 2 个数量级。

  • 延迟洞察: P99 延迟指标极具启发性。像 gemini-2.0-flash-001nova-pro-v1 这样的模型表现出一致的速度(低 P99),而像 deepSeek-R1deepSeek-V3-0324 这样的模型则容易出现偶尔的、显著的延迟(高 P99),这可能会影响用户体验。这些结果与每个模型的平均回答时间测量结果一致。image/png AutoBench 性能排名与评估 LLM 响应持续时间第 99 百分位 (P99) 之间的关系。它突出了模型的一致速度(或慢速),显示了对用户体验的潜在影响,特别是对于异常的、较慢的响应。

这些多维度的结果强调了根据特定应用需求选择模型的重要性,平衡质量、预算和响应能力。交互式排行榜专门旨在帮助用户应对这些权衡。  

特定领域优势与劣势

AutoBench 评估了各个领域的性能,揭示了模型的特定优势:  

  • o4-mini-2025-04-16 展现出广泛的卓越性,在数学科学等具有挑战性的领域表现出色。
  • gemini-2.5-pro-preview-03-25技术通识文化历史方面表现出特别的优势。
  • 数学领域: 对许多模型来说仍然是一个困难领域,凸显了其作为 LLM 能力区分器的价值。

您可以在排行榜上按领域筛选,以进一步探索这些细粒度洞察。  

探索结果:AutoBench 交互式排行榜

排行榜使用 Gradio 构建并托管在 Hugging Face Spaces 上,使您能够直观且富有洞察力地探索我们的综合基准数据。   在此访问排行榜: https://huggingface.co/spaces/AutoBench/AutoBench-Leaderboard

主要功能包括:  

  • 多指标排序: 按 AutoBench 分数、成本、平均延迟或 P99 延迟对模型进行排名。
  • 交互式图表: 可视化性能、成本和速度之间复杂的权衡。
  • 领域筛选: 分析模型在编码、逻辑或创意写作等特定领域的性能。
  • 最新比较: 轻松比较我们 2025 年 4 月运行中评估的最新 LLM。

  

数据发布与未来计划

本着透明和社区协作的精神,我们正在发布:  

  • 数据样本: 运行中具有代表性的问题/答案/排名样本。
  • 详细迭代数据: 用于深入分析的细粒度、迭代级结果。

所有数据、代码和相关信息请访问 AutoBench Hugging Face 主页:https://huggingface.co/AutoBench

此外,本次运行由显著改进的 AutoBench 引擎提供支持,提高了效率和速度。我们正准备在不久的将来发布 AutoBench 1.1(开源)——敬请期待!  

支持与致谢

我们衷心感谢 Translated (https://translated.com/) 对 AutoBench 项目的慷慨支持,他们提供了宝贵的 LLM 计算积分。这项支持对于本次运行中进行的大量评估至关重要。

我们还要向以下个人表示深切感谢,他们在 AutoBench 的开发和执行过程中提供了极其宝贵的帮助和富有洞察力的反馈

他们的专业知识和指导对 AutoBench 项目来说是无价的。

参与其中

AutoBench 是迈向更稳健、可扩展和面向未来的 LLM 评估的一步。我们邀请您探索代码、运行基准测试、为它的发展做出贡献,并加入关于 LLM 评估未来的讨论!

  • 探索代码和数据: Hugging Face AutoBench 仓库
  • 在 Spaces 上尝试我们的演示: AutoBench 1.0 演示
  • 贡献: 通过 Hugging Face 仓库提交拉取请求或问题,帮助我们提出新主题、完善提示或改进加权算法。

我们强烈鼓励 AI 社区参与交互式排行榜,探索已发布的数据,并分享反馈。AutoBench 旨在成为一个动态发展的资源,我们期待未来的运行和 AutoBench 1.0 的开源发布。

社区

注册登录 发表评论