AutoBench Run 2 结果出炉！惊喜：Gemini 2.5 Pro 并非最佳经济型思维模型

社区文章发布于 2025 年 4 月 29 日

使用我们全新的交互式排行榜，探索 o4 Mini、Gpt 4.1 Mini、Gemini 2.5 Pro、Claude 3.7 Sonnet:thinking、DeepSeek V3-0324 以及所有最新模型的性能！

AutoBench Run 2：方法与规模

验证：AutoBench 与其他基准的比较

主要发现：AutoBench 总体排名

性能、成本与延迟之间的权衡

特定领域优势与劣势

探索结果：AutoBench 交互式排行榜

数据发布与未来计划

支持与致谢

参与其中

使用我们全新的交互式排行榜，探索 o4 Mini、Gpt 4.1 Mini、Gemini 2.5 Pro、Claude 3.7 Sonnet:thinking、DeepSeek V3-0324 以及所有最新模型的性能！

继我们首次介绍 AutoBench 之后，我们很高兴地宣布第二轮主要基准测试已完成，更令人兴奋的是，AutoBench 交互式排行榜已上线！这个新工具托管在 Hugging Face Spaces 上，提供了一种便捷动态的方式来探索最新评估的丰富结果。 直接查看结果：AutoBench 排行榜：前 25 名 LLM

第二轮测试于2025 年 4 月 28 日完成，评估了 25 个尖端大型语言模型 (LLM)，包括新模型，如 o4 Mini、Gpt 4.1 Mini、Gemini 2.5 Pro、Claude 3.7 Sonnet: Thinking 和 DeepSeek V3-0324。我们不仅使用我们独特的“集体 LLM 作为评判”方法对它们的对话质量进行了排名，还纳入了关键的成本和延迟指标，提供了更全面的模型性能视图。

AutoBench Run 2：方法与规模

AutoBench 采用独特的评估流程。详情请参阅 AutoBench Hugging Face 页面。该方法的主要特点是：

1. LLM 生成问题： 由强大的 LLM 在众多领域（逻辑、编码、历史、科学等）生成高质量、多样化的问题，并进行排名以确保相关性。

2. LLM 作为评判： AutoBench 的核心是使用多个 LLM 集体对被测试模型生成的响应质量进行排名。

新版本的 AutoBench 将很快以开源形式发布，与 1.0 版本一样，它提供了更高效的排名流程，并且旨在处理来自“思维”模型的响应。这使我们能够使用多个强大的思维模型进行答案和排名生成，从而提高了基准的整体质量。

运行 2 详情

完成日期： 2025 年 4 月 28 日
测试模型： 25 个当代 LLM（22 个排名器）
迭代次数： 约 310 次（唯一排名问题）
生成答案 7,700+
收集成对排名 180,000+
平均答案长度： 10k+ 令牌
新指标
- 平均成本： 每个响应的成本（美元美分）。
- 平均延迟： 平均响应持续时间（秒）。
- P99 延迟： 第 99 百分位响应持续时间（秒），强调一致性。

请注意，AutoBench 旨在为 LLM 生成各种领域（编码、创意写作、新闻、常识、语法、历史、逻辑、数学、科学和技术）的极具挑战性的问题。答案长度从快速模型的 2k 令牌到“重度思考者”如 DeepSeek R1 的 20k+ 令牌不等。

验证：AutoBench 与其他基准的比较

对于任何新的基准，特别是像 AutoBench 这样的自动化基准，一个关键问题是它与现有、受信任的评估方法，尤其是涉及人类偏好的方法，的对齐程度如何。为了验证我们的“LLM 作为评判”方法，我们将 AutoBench Run 2 的排名与两个著名的外部基准进行了比较：

Chatbot Arena (CBA)： 一个广受尊重的基准，基于众包的人类投票，并排比较 LLM 输出。
人工智能分析指数 (AAII)： 一个综合指数，评估 LLM 在推理、知识、数学和编码任务中的表现。

结果显示出令人信服的一致性：

AutoBench vs. Chatbot Arena： 82.51% 的强相关性。
AutoBench vs. AAII： 83.74% 的良好相关性。

这种强相关性，特别是与以人类偏好为主导的 Chatbot Arena 的相关性，极大地增强了 AutoBench 自动化方法的可信度。这表明我们的“LLM 作为评判”系统有效地捕捉了模型质量和能力中的细微差别，与人类评估产生共鸣，为评估 LLM 性能提供了一种可靠且可扩展的替代方案。

主要发现：AutoBench 总体排名

根据 AutoBench LLM 评判得分，本轮表现最佳的模型是： 1. o4-mini-2025-04-16： 4.57 2. gemini-2.5-pro-preview-03-25： 4.46 3. claude-3.7-sonnet:thinking： 4.39 4. gpt-4.1-mini： 4.34 5. grok-3-beta： 4.34

令我们惊讶的是，与大多数其他基准测试相反，o4-mini 在几乎所有领域都表现最佳。总的来说，所有 Open AI 模型在所有需要高“推理”技能的领域（如“数学”和“逻辑”）都名列前茅。

完整的、可排序的排名可在交互式排行榜上查看

性能、成本与延迟之间的权衡

虽然 AutoBench 分数反映了判断质量，但实际部署需要考虑效率。我们的分析揭示了显著的权衡：

顶级表现者： 正如预期，在 AutoBench 评分中获得最高分的模型，如 claude-3.7-sonnet:thinking、grok-3-beta 和 gemini-2.5-pro-preview-03-25，与更小更快的模型相比，API 成本高出 1 甚至 2 个数量级。
价值领导者： 像 gemini-2.0-flash-001、gemma-3-27b-it、gpt-4o-mini 和几种 Llama 变体等模型提供了引人注目的价值主张，以更低的成本和通常更快的响应时间提供可观的性能。 显示了由 AutoBench 计算的各种 LLM 的性能排名与它们对应的每响应平均成本（美元）之间的比较图。请注意，对数刻度显示价格范围跨越 2 个数量级。
延迟洞察： P99 延迟指标极具启发性。像 gemini-2.0-flash-001 和 nova-pro-v1 这样的模型表现出一致的速度（低 P99），而像 deepSeek-R1 和 deepSeek-V3-0324 这样的模型则容易出现偶尔的、显著的延迟（高 P99），这可能会影响用户体验。这些结果与每个模型的平均回答时间测量结果一致。 AutoBench 性能排名与评估 LLM 响应持续时间第 99 百分位 (P99) 之间的关系。它突出了模型的一致速度（或慢速），显示了对用户体验的潜在影响，特别是对于异常的、较慢的响应。

这些多维度的结果强调了根据特定应用需求选择模型的重要性，平衡质量、预算和响应能力。交互式排行榜专门旨在帮助用户应对这些权衡。

特定领域优势与劣势

AutoBench 评估了各个领域的性能，揭示了模型的特定优势：

o4-mini-2025-04-16： 展现出广泛的卓越性，在数学和科学等具有挑战性的领域表现出色。
gemini-2.5-pro-preview-03-25： 在技术、通识文化和历史方面表现出特别的优势。
数学领域： 对许多模型来说仍然是一个困难领域，凸显了其作为 LLM 能力区分器的价值。

您可以在排行榜上按领域筛选，以进一步探索这些细粒度洞察。

探索结果：AutoBench 交互式排行榜

排行榜使用 Gradio 构建并托管在 Hugging Face Spaces 上，使您能够直观且富有洞察力地探索我们的综合基准数据。 在此访问排行榜： https://huggingface.co/spaces/AutoBench/AutoBench-Leaderboard

主要功能包括：

多指标排序： 按 AutoBench 分数、成本、平均延迟或 P99 延迟对模型进行排名。
交互式图表： 可视化性能、成本和速度之间复杂的权衡。
领域筛选： 分析模型在编码、逻辑或创意写作等特定领域的性能。
最新比较： 轻松比较我们 2025 年 4 月运行中评估的最新 LLM。

数据发布与未来计划

本着透明和社区协作的精神，我们正在发布：

数据样本： 运行中具有代表性的问题/答案/排名样本。
详细迭代数据： 用于深入分析的细粒度、迭代级结果。

所有数据、代码和相关信息请访问 AutoBench Hugging Face 主页：https://huggingface.co/AutoBench

此外，本次运行由显著改进的 AutoBench 引擎提供支持，提高了效率和速度。我们正准备在不久的将来发布 AutoBench 1.1（开源）——敬请期待！

支持与致谢

我们衷心感谢 Translated (https://translated.com/) 对 AutoBench 项目的慷慨支持，他们提供了宝贵的 LLM 计算积分。这项支持对于本次运行中进行的大量评估至关重要。

我们还要向以下个人表示深切感谢，他们在 AutoBench 的开发和执行过程中提供了极其宝贵的帮助和富有洞察力的反馈

他们的专业知识和指导对 AutoBench 项目来说是无价的。

参与其中

AutoBench 是迈向更稳健、可扩展和面向未来的 LLM 评估的一步。我们邀请您探索代码、运行基准测试、为它的发展做出贡献，并加入关于 LLM 评估未来的讨论！

探索代码和数据： Hugging Face AutoBench 仓库
在 Spaces 上尝试我们的演示： AutoBench 1.0 演示
贡献： 通过 Hugging Face 仓库提交拉取请求或问题，帮助我们提出新主题、完善提示或改进加权算法。

我们强烈鼓励 AI 社区参与交互式排行榜，探索已发布的数据，并分享反馈。AutoBench 旨在成为一个动态发展的资源，我们期待未来的运行和 AutoBench 1.0 的开源发布。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论