摆脱基准陷阱：AutoBench – 用于评估 AI 模型的集体 LLM 即评审系统 (ASI-Ready!)

社区文章发布于 2025 年 3 月 4 日

人工智能还是集体智能，哪个更强大？那**集体人工智能**呢？隆重推出 AutoBench，这是一个**“集体 LLM 即评审”**基准，给定若干待排序的 LLM，这些 LLM 会相互集体排序。立即在Autobench 1.0 Demo Hugging Face Spaces上运行演示。

LLM 基准对于进步至关重要，但它们往往昂贵、静态，并且很快就会过时。人工评估速度慢且主观，而现有自动化基准则可能被操纵。我们需要一种更好的 LLM 评估方法——一种动态、经济高效且能跟上快速发展步伐的方法。这就是我们构建 AutoBench 的原因。

AutoBench 是一种新颖的全自动 LLM 基准，它使用模型本身作为评审。这种集体 LLM 即评审的方法可以实现持续、可扩展且出人意料的经济高效评估，与 Chatbot Arena、MMLU 和 Artificial Analysis Quality Index (AAQI) 等既定标准的**相关性高达 80%**。

在这种方法中，一组 LLM 协作评估问题和答案，利用其集体判断来提供对模型性能的强大、自动化评估，生成与既定基准强相关的结果。此外，通过动态生成问题（这些问题也经过集体排序），该系统对“基准操纵”具有很强的抵抗力。

至关重要的是，AutoBench 旨在**“ASI 就绪”**。随着 LLM 超越人类评估能力，AutoBench 的集体 LLM 即评审设计将继续提供相关且有意义的比较。

AutoBench 的主要特性和优势：

动态和自适应：持续生成的问题可防止基准操纵，并随着 LLM 的发展保持评估的相关性。
经济高效：一次运行 20 个模型，成本低于 100 美元——相比之下，基于人工的基准测试需要数千甚至数万美元——将返回一个稳定的基准，与 MMLU（相关性高于 75%）或 ChatBot Arena（相关性高于 80%）等最常见的基准具有显著的高相关性，使其比基于人工的评估更经济实惠。
可扩展：集体 LLM 即评审方法允许轻松评估大量和更新的模型（这也通过采用动态加权系统来考虑每个模型的性能）。
透明的偏见：虽然我们承认偏见在某种程度上是任何基准测试系统固有的，但 AutoBench 将模型偏见视为一个特征，因为集体方法减少了单个模型的怪癖，并提供了一个反映当前 LLM 生态系统“集体智能”的视角。
ASI 就绪：随着人工智能超智能 (ASI) 的出现，AutoBench 对 LLM 作为评审的依赖确保了它可以随着日益先进的模型进行扩展，即使在人工评估变得不切实际时也能保持相关性。
细致入微的洞察：AutoBench 提供对 LLM 在从数学和逻辑到历史和创意写作等广泛主题上的性能的细致入微的理解。其动态难度级别确保了公平和一致的评估。

性能如何？

AutoBench 与广泛认可的通用 LLM 基准实现了令人印象深刻的相关性

与 Chatbot Arena 达到 83% 的相关性：表明与基于人类偏好的对话能力评估高度一致。
与 MMLU 达到 75% 的相关性：表明与专注于大规模多任务语言理解的基准具有显著相关性。
与 Artificial Analysis Intelligence Index (AAQI) 达到 79% 的相关性：表明与评估更广泛 AI 能力的基准一致。

这些是我们运行时间最长的结果：20 个模型，267 个问题，5340 个答案，112k 个排名，所有这些都在 100 美元以下和 7 小时内完成。下表提供了与 ChatBot Arena (CBA)、Measuring Massive Multitask Language Understanding (MMLU) 和 Artificial Analysis Intelligence Index (AAQI) 的比较。表格底部报告了 AutoBench 1.0 与其他基准之间的相关性。

模型	AB 分数	CBA 分数	MMLU 分数	AAQI 分数
gpt-4o-2024-11-20	4.43	1365	86	75
gpt-4o-mini-2024-07-18	4.28	1273	82	73
gemini-2.0-flash-001	4.37	1357
gemini-2.0-flash-lite-preview-02-05	4.29	1306	85	79
gemini-1.5-flash-002	4.26	1271	81	74
google/gemma-2-27b-it	4.07	1220	77	61
google/gemma-2-9b-it	4.01	1192	73	55
meta-llama/Llama-3.3-70B-Instruct-Turbo	4.25	1256	86	74
meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo	4.14	1248	84	67
meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo-128K	3.78	1176	71	54
nvidia/Llama-3.1-Nemotron-70B-Instruct-HF	4.36	1269	86	72
deepseek-ai/DeepSeek-V3	4.27	1317	87	79
deepseek-ai/deepseek-llm-67b-chat	3.94	1077	72	47
mistralai/Mixtral-8x7B-Instruct-v0.1	4.04	1114	63	41
mistralai/Mixtral-8x22B-Instruct-v0.1	4.11	1148	76	61
Qwen/Qwen2.5-72B-Instruct-Turbo	4.33	1257	86	77
Qwen/Qwen2-VL-72B-Instruct	4	1187	83	68
claude-3-haiku-20240307	4.09	1179	71	55
claude-3-5-haiku-20241022	4.25	1236	81	68
openai-gpt-3.5-turbo-0613	3.68	1117
与 AutoBench 1.0 的相关性		83.14%	75.09%	79.19%

当然，基准排名也可以按主题（数学、逻辑、编码、历史、科学、创意写作等）绘制。

AutoBench 还提供有关回答速度的详细信息。下图绘制了每个模型的平均排名与回答时间的关系，揭示了效率权衡——更快的模型不总是排名最高。请注意，**DeepSeek V3** 的速度因本次运行期间提供商需求激增而异，这凸显了实际测试的挑战（我们测试了多个 API 提供商）。

准备好测试您的模型了吗？

AutoBench 的设计易于扩展。您只需几个步骤即可添加自己的 LLM

从我们最新的运行中**加载**预先计算的排名和权重。
将您的模型**添加**到 configs 文件中，指定正确的 API 提供商（Anthropic、Grok、Nebius、OpenAI、Together AI 或 Google 的 Vertex AI）。
**运行** AutoBench 至少 100 次迭代以获得可靠结果。

届时，排名误差应远低于 1%。当前的通用配置应足以适应大多数情况（即上下文窗口设置得足够长，但不会太长以致于成本过高）。

详细说明和完整代码库可在 Hugging Face AutoBench Repository 上找到。