摆脱基准陷阱:AutoBench – 用于评估 AI 模型的集体 LLM 即评审系统 (ASI-Ready!)

社区文章 发布于 2025 年 3 月 4 日

人工智能还是集体智能,哪个更强大?那**集体人工智能**呢?隆重推出 AutoBench,这是一个**“集体 LLM 即评审”**基准,给定若干待排序的 LLM,这些 LLM 会相互集体排序。立即在Autobench 1.0 Demo Hugging Face Spaces上运行演示。

LLM 基准对于进步至关重要,但它们往往昂贵、静态,并且很快就会过时。人工评估速度慢且主观,而现有自动化基准则可能被操纵。我们需要一种更好的 LLM 评估方法——一种动态、经济高效且能跟上快速发展步伐的方法。这就是我们构建 AutoBench 的原因。

AutoBench 是一种新颖的全自动 LLM 基准,它使用模型本身作为评审。这种集体 LLM 即评审的方法可以实现持续、可扩展且出人意料的经济高效评估,与 Chatbot Arena、MMLU 和 Artificial Analysis Quality Index (AAQI) 等既定标准的**相关性高达 80%**。

在这种方法中,一组 LLM 协作评估问题和答案,利用其集体判断来提供对模型性能的强大、自动化评估,生成与既定基准强相关的结果。此外,通过动态生成问题(这些问题也经过集体排序),该系统对“基准操纵”具有很强的抵抗力。

image/gif

至关重要的是,AutoBench 旨在**“ASI 就绪”**。随着 LLM 超越人类评估能力,AutoBench 的集体 LLM 即评审设计将继续提供相关且有意义的比较。

AutoBench 的主要特性和优势:

  • 动态和自适应:持续生成的问题可防止基准操纵,并随着 LLM 的发展保持评估的相关性。
  • 经济高效:一次运行 20 个模型,成本低于 100 美元——相比之下,基于人工的基准测试需要数千甚至数万美元——将返回一个稳定的基准,与 MMLU(相关性高于 75%)或 ChatBot Arena(相关性高于 80%)等最常见的基准具有显著的高相关性,使其比基于人工的评估更经济实惠。
  • 可扩展:集体 LLM 即评审方法允许轻松评估大量和更新的模型(这也通过采用动态加权系统来考虑每个模型的性能)。
  • 透明的偏见:虽然我们承认偏见在某种程度上是任何基准测试系统固有的,但 AutoBench 将模型偏见视为一个特征,因为集体方法减少了单个模型的怪癖,并提供了一个反映当前 LLM 生态系统“集体智能”的视角。
  • ASI 就绪:随着人工智能超智能 (ASI) 的出现,AutoBench 对 LLM 作为评审的依赖确保了它可以随着日益先进的模型进行扩展,即使在人工评估变得不切实际时也能保持相关性。
  • 细致入微的洞察:AutoBench 提供对 LLM 在从数学和逻辑到历史和创意写作等广泛主题上的性能的细致入微的理解。其动态难度级别确保了公平和一致的评估。

性能如何?

AutoBench 与广泛认可的通用 LLM 基准实现了令人印象深刻的相关性

  • 与 Chatbot Arena 达到 83% 的相关性:表明与基于人类偏好的对话能力评估高度一致。
  • 与 MMLU 达到 75% 的相关性:表明与专注于大规模多任务语言理解的基准具有显著相关性。
  • 与 Artificial Analysis Intelligence Index (AAQI) 达到 79% 的相关性:表明与评估更广泛 AI 能力的基准一致。

image/png

这些是我们运行时间最长的结果:20 个模型,267 个问题,5340 个答案,112k 个排名,所有这些都在 100 美元以下和 7 小时内完成。下表提供了与 ChatBot Arena (CBA)、Measuring Massive Multitask Language Understanding (MMLU) 和 Artificial Analysis Intelligence Index (AAQI) 的比较。表格底部报告了 AutoBench 1.0 与其他基准之间的相关性。

模型 AB 分数 CBA 分数 MMLU 分数 AAQI 分数
gpt-4o-2024-11-20 4.43 1365 86 75
gpt-4o-mini-2024-07-18 4.28 1273 82 73
gemini-2.0-flash-001 4.37 1357
gemini-2.0-flash-lite-preview-02-05 4.29 1306 85 79
gemini-1.5-flash-002 4.26 1271 81 74
google/gemma-2-27b-it 4.07 1220 77 61
google/gemma-2-9b-it 4.01 1192 73 55
meta-llama/Llama-3.3-70B-Instruct-Turbo 4.25 1256 86 74
meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo 4.14 1248 84 67
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo-128K 3.78 1176 71 54
nvidia/Llama-3.1-Nemotron-70B-Instruct-HF 4.36 1269 86 72
deepseek-ai/DeepSeek-V3 4.27 1317 87 79
deepseek-ai/deepseek-llm-67b-chat 3.94 1077 72 47
mistralai/Mixtral-8x7B-Instruct-v0.1 4.04 1114 63 41
mistralai/Mixtral-8x22B-Instruct-v0.1 4.11 1148 76 61
Qwen/Qwen2.5-72B-Instruct-Turbo 4.33 1257 86 77
Qwen/Qwen2-VL-72B-Instruct 4 1187 83 68
claude-3-haiku-20240307 4.09 1179 71 55
claude-3-5-haiku-20241022 4.25 1236 81 68
openai-gpt-3.5-turbo-0613 3.68 1117
与 AutoBench 1.0 的相关性 83.14% 75.09% 79.19%

当然,基准排名也可以按主题(数学、逻辑、编码、历史、科学、创意写作等)绘制。

AutoBench 还提供有关回答速度的详细信息。下图绘制了每个模型的平均排名与回答时间的关系,揭示了效率权衡——更快的模型不总是排名最高。请注意,**DeepSeek V3** 的速度因本次运行期间提供商需求激增而异,这凸显了实际测试的挑战(我们测试了多个 API 提供商)。

image/png

准备好测试您的模型了吗?

AutoBench 的设计易于扩展。您只需几个步骤即可添加自己的 LLM

  1. 从我们最新的运行中**加载**预先计算的排名和权重。
  2. 将您的模型**添加**到 configs 文件中,指定正确的 API 提供商(AnthropicGrokNebiusOpenAITogether AI 或 Google 的 Vertex AI)。
  3. **运行** AutoBench 至少 100 次迭代以获得可靠结果。

届时,排名误差应远低于 1%。当前的通用配置应足以适应大多数情况(即上下文窗口设置得足够长,但不会太长以致于成本过高)。

详细说明和完整代码库可在 Hugging Face AutoBench Repository 上找到。

Hugging Face Spaces 上提供演示

想立即尝试吗?前往我们的 Hugging Face 上的 AutoBench 1.0 演示空间。这是一个精简的演示,用于在 Hugging Face 推理 API 上运行(仅提供 7 个模型)。您只需选择要排名的模型以及要对模型进行排名的主题。然后点击“运行基准测试”。

虽然 AutoBench 在可扩展性和成本方面表现出色,但它对 LLM 评审的依赖引入了反映当前模型的偏见。我们正在积极通过社区输入和未来的更新来完善这一点。有关更多信息,请阅读详细方法论文档

参与进来!

AutoBench 是迈向更强大、可扩展和面向未来的 LLM 评估的一步。我们邀请您探索代码、运行基准测试、为它的开发做出贡献,并加入关于 LLM 评估未来的讨论!

社区

📻 🎙️ 嘿,我为这篇博文生成了一个 AI 播客,快来听听看吧!

此播客通过 ngxson/kokoro-podcast-generator 生成,使用 DeepSeek-R1Kokoro-TTS

·
文章作者

很棒,而且完全准确。干得好。谢谢!

注册登录 发表评论