🐺🐦‍⬛ LLM 比较/测试:DeepSeek-V3、QVQ-72B-Preview、Falcon3 10B、Llama 3.3 70B、Nemotron 70B 在我更新的 MMLU-Pro CS 基准测试中

社区文章 发布于 2025年1月2日

image/png

引言

新年新基准!我测试了一些在我最新的报告之后发布的新模型(**DeepSeek-V3**、**QVQ-72B-Preview**、**Falcon3 10B**),以及一些我尚未测试的“旧”模型(**Llama 3.3 70B Instruct**、**Llama 3.1 Nemotron 70B Instruct**)。

所有这些都是对我 2024 年 12 月原始报告的更新,在该报告中,您将找到关于我在这一系列 MMLU-Pro CS 基准测试中测试和比较的所有其他(25 个!)模型的更多详细信息:LLM 比较/测试:通过 59 次 MMLU-Pro CS 基准测试运行对 25 个 SOTA LLM(包括 QwQ)进行测试

新测试的模型

  1. **DeepSeek-V3**是新的开源明星,它是一个庞然大物,拥有 671B 参数,其专家混合(Mixture-of-Experts)架构中包含 37B 活跃参数。我通过官方 DeepSeek API 对其进行了测试,它的速度非常快(约 50 tokens/秒),而且非常便宜(4 次运行共计 1.4M tokens,花费 66 美分)。

    然而,令人惊讶的是,它并未成为本地模型中的第一名——至少在我的 MMLU-Pro CS 基准测试中没有,它“仅仅”获得了 78% 的分数,与更小的 Qwen2.5 72B 相同,甚至低于更小的 QwQ 32B Preview!但它仍然是一个不错的成绩,并且击败了 GPT-4o、Mistral Large、Llama 3.1 405B 和大多数其他模型。

    此外,有很多关于该模型的积极报告——所以如果可以的话(无论是本地运行还是通过 API),一定要仔细研究并用您自己的用例进行测试。这条建议通常适用于所有模型和基准测试!

    话虽如此,就我个人而言,我仍然犹豫不决,因为我遇到了一些重复问题,这让我想起了过去本地 LLM 的时代。然而,这可能有各种解释,所以我将继续调查和进一步测试它,因为它无疑是开放式 LLM 的一个里程碑。

  2. **Llama 3.3 70B Instruct**是 Meta Llama 系列的最新迭代,专注于多语言性,因此其通用性能与前代产品没有太大差异。尽管如此,即使量化到仅 4 位,它仍获得了约 71% 的分数,这比未量化(!)的 Llama 3.1 70B Instruct 稍好,几乎与 gpt-4o-2024-11-20 持平!

    这里没什么好说的了,Llama 在其他模型,尤其是来自中国的模型面前,有些黯然失色。所以期待 Llama 4 能带来什么,希望能尽快到来。

  3. **Llama 3.1 Nemotron 70B Instruct** 是这批模型中最老的一个,3 个月大的它在 LLM 领域已基本算是“古董”了。不过,它仍然表现稳健,在约 4 位量化下得分约为 70%,与它所基于的未量化 Llama 3.1 70B 非常接近。

    测试中并未反映出其使用感受——它与其他模型不同,更像是一种多项选择对话,而非普通聊天。这可能是好是坏,取决于您的用例。对于客户支持机器人等场景,这种风格可能非常适合。

  4. 和 DeepSeek-V3 一样,我很惊讶(甚至有些失望)**QVQ-72B-Preview** 没有取得更高的分数。QwQ 32B 的表现好得多,但即使拥有 16K 的最大 token,QVQ 72B 也没有通过更多推理来提高性能。它只得了 70%,而 QwQ 32B 是 79%,Qwen2.5 72B 是 78%。

    但这也许是意料之中的,因为 QVQ 专注于视觉推理——这并不是这个基准测试所衡量的。然而,考虑到它基于 Qwen,以及 QwQ 32B 和 Qwen 72B 模型的出色表现,我曾希望 QVQ 兼具 72B 和推理能力能对其整体性能产生更大的影响。

    因此,我们必须继续等待 QwQ 72B 的发布,看看更多的参数能否进一步提高推理能力,以及提高多少。但如果您有视觉推理的用例,这可能是本地模型中最好(也是唯一)的选择。

  5. **Falcon3 10B Instruct**表现出乎意料的好,得分 61%。大多数小型模型甚至无法通过 50% 的阈值,根本无法进入排行榜(例如,我测试的 IBM Granite 8B 就未能入选)。

    Falcon3 10B 甚至超越了 Mistral Small,后者虽然有 22B,但体积是它的两倍多。如果您需要一个体积小巧但能够处理英语、法语、西班牙语或葡萄牙语的模型,绝对值得一试。

关于基准

MMLU-Pro基准是一个全面的评估大型语言模型的工具,涵盖计算机科学、数学、物理、化学等多个类别。它旨在评估模型在广泛学科中理解和应用知识的能力,为通用智能提供一个稳健的衡量标准。虽然它是一个多项选择题测试,但与前身 MMLU 中的 4 个答案选项不同,现在每个问题有 10 个选项,这大大降低了偶然答对的概率。此外,重点日益放在复杂的推理任务而非纯粹的事实知识上。

对于我的基准测试,目前我仅限于计算机科学类别,其中包含 410 个问题。这一务实决定基于几个因素:首先,我特别重视我的日常工作环境中模型的响应,因为我经常在日常工作中使用这些模型。其次,在消费级硬件上运行本地模型存在计算时间的实际限制——一次运行对于大型模型来说已经需要几个小时,而我通常会进行至少两次运行以确保一致性。

与通常只报告单一分数的基准测试不同,我为每个模型进行多次测试运行,以捕捉性能的可变性。这种全面的方法可以更准确、细致地了解每个模型的真实能力。通过对每个模型执行至少两次基准测试运行,我建立了对性能水平和一致性的稳健评估。结果中包含误差条,显示标准差,说明了性能在不同测试运行中的变化情况。

仅这项研究的基准测试就耗费了超过70 **88** 小时的运行时间。如果增加额外的类别或运行次数,在可用资源下,测试时长会变得如此之长,以至于研究完成时,被测试的模型就已经过时了。因此,建立实用的框架条件和限制对于在合理的时间范围内获得有意义的结果至关重要。

详细结果

这是完整的表格,包括原始报告中的先前结果

模型 HF 主模型名称 HF 草稿模型名称(推测解码) 大小 格式 API GPU GPU 内存 运行 时长 总计 % TIGER-Lab 正确随机猜测 提示词 token 每秒令牌数 完成令牌数 每秒令牌数
claude-3-5-sonnet-20241022 - - - - Anthropic - - 1/2 31 分 50 秒 340/410 82.93% ~= 82.44% 694458 362.78 97438 50.90
claude-3-5-sonnet-20241022 - - - - Anthropic - - 2/2 31 分 39 秒 338/410 82.44% == 82.44% 694458 364.82 97314 51.12
gemini-1.5-pro-002 - - - - Gemini - - 1/2 31 分 7 秒 335/410 81.71% > 71.22% 648675 346.82 78311 41.87
gemini-1.5-pro-002 - - - - Gemini - - 2/2 30 分 40 秒 327/410 79.76% > 71.22% 648675 351.73 76063 41.24
QwQ-32B-Preview (8.0bpw EXL2, max_tokens=16384) bartowski/QwQ-32B-Preview-exl2_8_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 38436MiB 1/2 2 小时 3 分 30 秒 325/410 79.27% 0/2, 0.00% 656716 88.58 327825 44.22
QwQ-32B-Preview (8.0bpw EXL2, max_tokens=16384) bartowski/QwQ-32B-Preview-exl2_8_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 38436MiB 2/2 2 小时 3 分 35 秒 324/410 79.02% 656716 88.52 343440 46.29
Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 缓存) wolfram/Athene-V2-Chat-4.65bpw-h6-exl2 - 72B EXL2 TabbyAPI RTX 6000 44496MiB 1/2 2 小时 13 分 5 秒 326/410 79.51% > 73.41% 656716 82.21 142256 17.81
Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 缓存) wolfram/Athene-V2-Chat-4.65bpw-h6-exl2 - 72B EXL2 TabbyAPI RTX 6000 44496MiB 2/2 2 小时 14 分 53 秒 317/410 77.32% > 73.41% 656716 81.11 143659 17.74
Qwen2.5-72B-Instruct (4.65bpw EXL2, Q4 缓存) LoneStriker/Qwen2.5-72B-Instruct-4.65bpw-h6-exl2 - 72B EXL2 TabbyAPI 2x RTX 3090 41150MiB 1/2 3 小时 7 分 58 秒 320/410 78.05% > 74.88% 656716 58.21 139499 12.36
Qwen2.5-72B-Instruct (4.65bpw EXL2, Q4 缓存) LoneStriker/Qwen2.5-72B-Instruct-4.65bpw-h6-exl2 - 72B EXL2 TabbyAPI 2x RTX 3090 41150MiB 2/2 3 小时 5 分 19 秒 319/410 77.80% > 74.88% 656716 59.04 138135 12.42
🆕 DeepSeek-V3 deepseek-ai/DeepSeek-V3 - 671B HF 深度求索 - - 1/4 20分22秒 320/410 78.05% 628029 512.38 66807 54.50
🆕 DeepSeek-V3 deepseek-ai/DeepSeek-V3 - 671B HF 深度求索 - - 2/4 27分43秒 320/410 78.05% 628029 376.59 66874 40.10
🆕 DeepSeek-V3 deepseek-ai/DeepSeek-V3 - 671B HF 深度求索 - - 3/4 19分45秒 319/410 77.80% 628029 528.39 64470 54.24
🆕 DeepSeek-V3 deepseek-ai/DeepSeek-V3 - 671B HF 深度求索 - - 4/4 19分45秒 319/410 77.80% 628029 375.73 69531 41.60
QwQ-32B-Preview (4.25bpw EXL2, max_tokens=16384) bartowski/QwQ-32B-Preview-exl2_4_25 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 27636MiB 1/2 1小时56分8秒 319/410 77.80% 0/1, 0.00% 656716 94.20 374973 53.79
QwQ-32B-Preview (4.25bpw EXL2, max_tokens=16384) bartowski/QwQ-32B-Preview-exl2_4_25 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 27636MiB 2/2 1小时55分44秒 318/410 77.56% 656716 94.45 377638 54.31
gpt-4o-2024-08-06 - - - - OpenAI - - 1/2 34 分 54 秒 320/410 78.05% ~= 78.29% 1/2, 50.00% 631448 300.79 99103 47.21
gpt-4o-2024-08-06 - - - - OpenAI - - 2/2 42 分 41 秒 316/410 77.07% ~< 78.29% 1/3, 33.33% 631448 246.02 98466 38.36
QwQ-32B-Preview (8.0bpw EXL2) bartowski/QwQ-32B-Preview-exl2_8_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 38528MiB 1/4 1小时29分49秒 324/410 79.02% 0/1, 0.00% 656716 121.70 229008 42.44
QwQ-32B-Preview (8.0bpw EXL2) bartowski/QwQ-32B-Preview-exl2_8_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 38528MiB 2/4 1小时32分30秒 314/410 76.59% 0/2, 0.00% 656716 118.24 239161 43.06
QwQ-32B-Preview (8.0bpw EXL2) bartowski/QwQ-32B-Preview-exl2_8_0 - 32B EXL2 TabbyAPI RTX 6000 37000MiB 3/4 2小时25分24秒 308/410 75.12% 0/2, 0.00% 656716 75.23 232208 26.60
QwQ-32B-Preview (8.0bpw EXL2) bartowski/QwQ-32B-Preview-exl2_8_0 - 32B EXL2 TabbyAPI RTX 6000 37000MiB 4/4 2小时27分27秒 305/410 74.39% 0/3, 0.00% 656716 74.19 235650 26.62
QwQ-32B-Preview-abliterated (4.5bpw EXL2, max_tokens=16384) ibrahimkettaneh_QwQ-32B-Preview-abliterated-4.5bpw-h8-exl2 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 28556MiB 1/2 2小时10分53秒 310/410 75.61% 656716 83.59 412512 52.51
QwQ-32B-Preview-abliterated (4.5bpw EXL2, max_tokens=16384) ibrahimkettaneh_QwQ-32B-Preview-abliterated-4.5bpw-h8-exl2 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 28556MiB 2/2 2小时25分29秒 310/410 75.61% 656716 75.20 478590 54.80
mistral-large-2407 (123B) mistralai/Mistral-Large-Instruct-2407 - 123B HF Mistral - - 1/2 40 分 23 秒 310/410 75.61% > 70.24% 696798 287.13 79444 32.74
mistral-large-2407 (123B) mistralai/Mistral-Large-Instruct-2407 - 123B HF Mistral - - 2/2 46 分 55 秒 308/410 75.12% > 70.24% 0/1, 0.00% 696798 247.21 75971 26.95
Llama-3.1-405B-Instruct-FP8 meta-llama/Llama-3.1-405B-Instruct-FP8 - 405B HF IONOS - - 1/2 2 小时 5 分 28 秒 311/410 75.85% 648580 86.11 79191 10.51
Llama-3.1-405B-Instruct-FP8 meta-llama/Llama-3.1-405B-Instruct-FP8 - 405B HF IONOS - - 2/2 2 小时 10 分 19 秒 307/410 74.88% 648580 82.90 79648 10.18
mistral-large-2411 (123B) mistralai/Mistral-Large-Instruct-2411 - 123B HF Mistral - - 1/2 41 分 46 秒 302/410 73.66% 1/3, 33.33% 696798 277.70 82028 32.69
mistral-large-2411 (123B) mistralai/Mistral-Large-Instruct-2411 - 123B HF Mistral - - 2/2 32 分 47 秒 300/410 73.17% 0/1, 0.00% 696798 353.53 77998 39.57
QwQ-32B-Preview (4.25bpw EXL2) bartowski/QwQ-32B-Preview-exl2_4_25 - 32B EXL2 TabbyAPI RTX 6000 26198MiB 1/4 1小时39分49秒 308/410 75.12% 0/1, 0.00% 656716 109.59 243552 40.64
QwQ-32B-Preview (4.25bpw EXL2) bartowski/QwQ-32B-Preview-exl2_4_25 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 27750MiB 2/4 1小时22分12秒 304/410 74.15% 656716 133.04 247314 50.10
QwQ-32B-Preview (4.25bpw EXL2) bartowski/QwQ-32B-Preview-exl2_4_25 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 27750MiB 3/4 1小时21分39秒 296/410 72.20% 656716 133.94 246020 50.18
QwQ-32B-Preview (4.25bpw EXL2) bartowski/QwQ-32B-Preview-exl2_4_25 - 32B EXL2 TabbyAPI RTX 6000 26198MiB 4/4 1小时42分33秒 294/410 71.71% 656716 106.63 250222 40.63
chatgpt-4o-latest @ 2024-11-18 - - - - OpenAI - - 1/2 28 分 17 秒 302/410 73.66% < 78.29% 2/4, 50.00% 631448 371.33 146558 86.18
chatgpt-4o-latest @ 2024-11-18 - - - - OpenAI - - 2/2 28 分 31 秒 298/410 72.68% < 78.29% 2/2, 100.00% 631448 368.19 146782 85.59
gpt-4o-2024-11-20 - - - - OpenAI - - 1/2 25 分 35 秒 296/410 72.20% 1/7, 14.29% 631448 410.38 158694 103.14
gpt-4o-2024-11-20 - - - - OpenAI - - 2/2 26 分 10 秒 294/410 71.71% 1/7, 14.29% 631448 400.95 160378 101.84
🆕 Llama-3.3-70B-Instruct (4.0bpw EXL2) LoneStriker/Llama-3.3-70B-Instruct-4.0bpw-h6-exl2 - 70B EXL2 TabbyAPI RTX 6000 47148MiB 1/2 2小时2分33秒 293/410 71.46% 648580 88.15 87107 11.84
🆕 Llama-3.3-70B-Instruct (4.0bpw EXL2) LoneStriker/Llama-3.3-70B-Instruct-4.0bpw-h6-exl2 - 70B EXL2 TabbyAPI RTX 6000 47148MiB 2/2 1小时33分59秒 293/410 71.46% 534360 94.70 89510 15.86
Llama-3.1-70B-Instruct meta-llama/Llama-3.1-70B-Instruct - 70B HF IONOS - - 1/2 41 分 12 秒 291/410 70.98% > 66.34% 3/12, 25.00% 648580 261.88 102559 41.41
Llama-3.1-70B-Instruct meta-llama/Llama-3.1-70B-Instruct - 70B HF IONOS - - 2/2 39 分 48 秒 287/410 70.00% > 66.34% 3/14, 21.43% 648580 271.12 106644 44.58
🆕 Llama-3.1-Nemotron-70B-Instruct (4.25bpw EXL2) bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-exl2_4_25 - 70B EXL2 TabbyAPI RTX 6000 40104MiB 1/2 2小时13分3秒 290/410 70.73% 640380 80.18 157235 19.69
🆕 Llama-3.1-Nemotron-70B-Instruct (4.25bpw EXL2) bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-exl2_4_25 - 70B EXL2 TabbyAPI RTX 6000 40104MiB 2/2 2小时13分15秒 287/410 70.00% 0/1, 0.00% 640380 80.07 157471 19.69
🆕 QVQ-72B-Preview (4.65bpw EXL2, max_tokens=16384) wolfram/QVQ-72B-Preview-4.65bpw-h6-exl2 Qwen/Qwen2.5-Coder-0.5B-Instruct 72B EXL2 TabbyAPI RTX 6000 46260MiB 1/2 3小时43分12秒 290/410 70.73% 1/3, 33.33% 656716 49.02 441187 32.93
🆕 QVQ-72B-Preview (4.65bpw EXL2, max_tokens=16384) wolfram/QVQ-72B-Preview-4.65bpw-h6-exl2 Qwen/Qwen2.5-Coder-0.5B-Instruct 72B EXL2 TabbyAPI RTX 6000 46260MiB 2/2 3小时47分29秒 284/410 69.27% 0/2, 0.00% 656716 48.10 450363 32.99
gemini-1.5-flash-002 - - - - Gemini - - 1/2 13 分 19 秒 288/410 70.24% > 63.41% 1/6, 16.67% 648675 808.52 80535 100.38
gemini-1.5-flash-002 - - - - Gemini - - 2/2 22 分 30 秒 285/410 69.51% > 63.41% 2/7, 28.57% 648675 479.42 80221 59.29
Llama-3.2-90B-Vision-Instruct meta-llama/Llama-3.2-90B-Vision-Instruct - 90B HF Azure - - 1/2 33 分 6 秒 289/410 70.49% 4/7, 57.14% 640380 321.96 88997 44.74
Llama-3.2-90B-Vision-Instruct meta-llama/Llama-3.2-90B-Vision-Instruct - 90B HF Azure - - 2/2 31 分 31 秒 281/410 68.54% 2/5, 40.00% 640380 338.10 85381 45.08
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 Qwen/Qwen2.5-Coder-3B-Instruct 32B EXL2 TabbyAPI RTX 6000 45880MiB 1/7 41 分 59 秒 289/410 70.49% 656716 260.29 92126 36.51
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 40036MiB 2/7 34 分 24 秒 286/410 69.76% 656716 317.48 89487 43.26
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 Qwen/Qwen2.5-Coder-3B-Instruct 32B EXL2 TabbyAPI RTX 6000 45880MiB 3/7 41 分 27 秒 283/410 69.02% 0/1, 0.00% 656716 263.62 90349 36.27
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 bartowski/Qwen2.5-Coder-7B-Instruct-exl2_8_0 32B EXL2 TabbyAPI RTX 6000 43688MiB 4/7 42 分 32 秒 283/410 69.02% 0/1, 0.00% 656716 256.77 90899 35.54
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 bartowski/Qwen2.5-Coder-7B-Instruct-exl2_8_0 32B EXL2 TabbyAPI RTX 6000 43688MiB 5/7 44 分 34 秒 282/410 68.78% 0/1, 0.00% 656716 245.24 96470 36.03
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 - 32B EXL2 TabbyAPI RTX 6000 38620MiB 6/7 1 小时 2 分 8 秒 282/410 68.78% 656716 175.98 92767 24.86
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 40036MiB 7/7 34 分 56 秒 280/410 68.29% 656716 312.66 91926 43.76
QwQ-32B-Preview (3.0bpw EXL2, max_tokens=8192) bartowski/QwQ-32B-Preview-exl2_3_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 22990MiB 1/2 1小时15分18秒 289/410 70.49% 656716 145.23 269937 59.69
QwQ-32B-Preview (3.0bpw EXL2, max_tokens=8192) bartowski/QwQ-32B-Preview-exl2_3_0 Qwen/Qwen2.5-Coder-0.5B-Instruct 32B EXL2 TabbyAPI RTX 6000 22990MiB 2/2 1小时19分50秒 274/410 66.83% 0/2, 0.00% 656716 137.01 291818 60.88
Mistral-Large-Instruct-2411 (123B, 3.0bpw EXL2) MikeRoz/mistralai_Mistral-Large-Instruct-2411-3.0bpw-h6-exl2 - 123B EXL2 TabbyAPI RTX 6000 47068MiB 1/2 1 小时 26 分 26 秒 284/410 69.27% 1/3, 33.33% 696798 134.23 79925 15.40
Mistral-Large-Instruct-2411 (123B, 3.0bpw EXL2) MikeRoz/mistralai_Mistral-Large-Instruct-2411-3.0bpw-h6-exl2 - 123B EXL2 TabbyAPI RTX 6000 47068MiB 2/2 1 小时 26 分 10 秒 275/410 67.07% 0/2, 0.00% 696798 134.67 79778 15.42
Mistral-Large-Instruct-2407 (123B, 2.75bpw EXL2) turboderp/Mistral-Large-Instruct-2407-123B-exl2_2.75bpw - 123B EXL2 TabbyAPI RTX 6000 45096MiB 1/2 1 小时 8 分 8 秒 271/410 66.10% < 70.24% 696798 170.29 66670 16.29
Mistral-Large-Instruct-2407 (123B, 2.75bpw EXL2) turboderp/Mistral-Large-Instruct-2407-123B-exl2_2.75bpw - 123B EXL2 TabbyAPI RTX 6000 45096MiB 2/2 1 小时 10 分 38 秒 268/410 65.37% < 70.24% 1/3, 33.33% 696798 164.23 69182 16.31
QwQ-32B-Preview (3.0bpw EXL2) bartowski/QwQ-32B-Preview-exl2_3_0 - 32B EXL2 TabbyAPI RTX 6000 21574MiB 1/2 1小时5分30秒 268/410 65.37% 1/3, 33.33% 656716 166.95 205218 52.17
QwQ-32B-Preview (3.0bpw EXL2) bartowski/QwQ-32B-Preview-exl2_3_0 - 32B EXL2 TabbyAPI RTX 6000 21574MiB 2/2 1小时8分44秒 266/410 64.88% 656716 159.10 215616 52.24
Mistral-Large-Instruct-2411 (123B, 2.75bpw EXL2) wolfram/Mistral-Large-Instruct-2411-2.75bpw-h6-exl2 - 123B EXL2 TabbyAPI RTX 6000 45096MiB 1/2 1 小时 11 分 50 秒 267/410 65.12% 1/4, 25.00% 696798 161.53 70538 16.35
Mistral-Large-Instruct-2411 (123B, 2.75bpw EXL2) wolfram/Mistral-Large-Instruct-2411-2.75bpw-h6-exl2 - 123B EXL2 TabbyAPI RTX 6000 45096MiB 2/2 1 小时 13 分 50 秒 243/410 59.27% 0/4, 0.00% 696798 157.18 72718 16.40
🆕 Falcon3-10B-Instruct tiiuae/Falcon3-10B-Instruct - 10B HF Ollama RTX 6000 20906MiB 1/2 35分15秒 251/410 61.22% 2/5, 40.00% 702578 331.57 75501 35.63
🆕 Falcon3-10B-Instruct tiiuae/Falcon3-10B-Instruct - 10B HF Ollama RTX 6000 20906MiB 2/2 35分21秒 251/410 61.22% 2/5, 40.00% 702578 330.66 75501 35.53
mistral-small-2409 (22B) mistralai/Mistral-Small-Instruct-2409 - 22B HF Mistral - - 1/2 25 分 3 秒 243/410 59.27% > 53.66% 1/4, 25.00% 696798 462.38 73212 48.58
mistral-small-2409 (22B) mistralai/Mistral-Small-Instruct-2409 - 22B HF Mistral - - 2/2 20 分 45 秒 239/410 58.29% > 53.66% 1/4, 25.00% 696798 558.10 76017 60.89
  • 模型:模型名称(含相关参数和设置详情)
  • HF 主模型名称:Hugging Face 上列出的被测模型的完整名称
  • HF 草稿模型名称(推测解码):用于推测解码的草稿模型(如果适用)
  • 大小:参数数量
  • 格式:模型格式类型(HF、EXL2 等)
  • API:服务提供商(TabbyAPI 表示本地部署)
  • GPU:用于本次基准测试运行的显卡
  • GPU 内存:分配给模型和配置的显存
  • 运行:基准测试运行序列号
  • 持续时间:基准测试总运行时间
  • 总计:正确答案数量(决定排名!)
  • %:正确答案百分比
  • TIGER-Lab:TIGER-Lab(MMLU-Pro 的开发者)的 CS 基准测试结果与我的比较
  • 正确随机猜测:当 MMLU-Pro 无法明确识别模型的答案选择时,它会默认进行随机猜测,并报告这些随机猜测的数量及其准确性(高比例的随机猜测表明在遵循响应格式方面存在问题)
  • 提示令牌数:输入文本的令牌计数
  • 每秒令牌数:每秒处理的令牌数
  • 完成令牌数:生成响应的令牌计数
  • 每秒令牌数:每秒生成的令牌数

🆕 更新 2025-01-04:进一步分析后的额外见解

受到Teortaxes 在 X 上的宝贵反馈启发,我进行了额外的分析,揭示了引人入胜的见解

一个关键发现出现在比较 DeepSeek-V3 和 Qwen2.5-72B-Instruct 时:尽管两个模型都达到了 77.93% 的相同准确率,但它们的响应模式却大相径庭。尽管总体性能匹配,但它们在 101 个问题上给出了不同的答案!此外,它们共享了 45 个错误响应,这与它们各自的错误是分开的。

对未回答问题的分析也产生了同样有趣的结果:在顶级本地模型(Athene-V2-Chat、DeepSeek-V3、Qwen2.5-72B-Instruct 和 QwQ-32B-Preview)中,410 个问题中只有 30 个(7.32%)所有模型都给出了错误答案。当将分析范围扩大到包括 Claude 和 GPT-4 时,所有模型都未能解决的问题数量下降到 23 个(5.61%)。

这证明 MMLU-Pro CS 基准测试没有 78% 的软上限。如果存在上限,那它应该在 95% 左右,这证实了该基准测试现在和可预见的未来仍然是评估 LLM 的一个稳健有效的工具。

image/png


🆕 更新 2025-01-05:分析了所有未解决问题的结果

在分析了我测试模型中所有未解决问题的结果后,只有 410 个问题中的 10 个(2.44%)仍未解决。

这表明 MMLU-Pro CS 基准测试保持了较高的上限,并且仍然是评估高级语言模型的宝贵工具。


Wolfram Ravenwolf 是一名德国人工智能工程师,也是一名活跃于国际的顾问和知名研究员,他对本地语言模型尤其充满热情。您可以在XBluesky上关注他,在 HF 和Reddit上阅读他之前的 LLM 测试和比较,在Hugging Face上查看他的模型,在Ko-fi上给他打赏,或者预约他的咨询服务。

社区

注册登录以评论