🐺🐦‍⬛ LLM 比较/测试：DeepSeek-V3、QVQ-72B-Preview、Falcon3 10B、Llama 3.3 70B、Nemotron 70B 在我更新的 MMLU-Pro CS 基准测试中

社区文章发布于 2025年1月2日

引言

新年新基准！我测试了一些在我最新的报告之后发布的新模型（**DeepSeek-V3**、**QVQ-72B-Preview**、**Falcon3 10B**），以及一些我尚未测试的“旧”模型（**Llama 3.3 70B Instruct**、**Llama 3.1 Nemotron 70B Instruct**）。

所有这些都是对我 2024 年 12 月原始报告的更新，在该报告中，您将找到关于我在这一系列 MMLU-Pro CS 基准测试中测试和比较的所有其他（25 个！）模型的更多详细信息：LLM 比较/测试：通过 59 次 MMLU-Pro CS 基准测试运行对 25 个 SOTA LLM（包括 QwQ）进行测试

新测试的模型

**DeepSeek-V3**是新的开源明星，它是一个庞然大物，拥有 671B 参数，其专家混合（Mixture-of-Experts）架构中包含 37B 活跃参数。我通过官方 DeepSeek API 对其进行了测试，它的速度非常快（约 50 tokens/秒），而且非常便宜（4 次运行共计 1.4M tokens，花费 66 美分）。

然而，令人惊讶的是，它并未成为本地模型中的第一名——至少在我的 MMLU-Pro CS 基准测试中没有，它“仅仅”获得了 78% 的分数，与更小的 Qwen2.5 72B 相同，甚至低于更小的 QwQ 32B Preview！但它仍然是一个不错的成绩，并且击败了 GPT-4o、Mistral Large、Llama 3.1 405B 和大多数其他模型。

此外，有很多关于该模型的积极报告——所以如果可以的话（无论是本地运行还是通过 API），一定要仔细研究并用您自己的用例进行测试。这条建议通常适用于所有模型和基准测试！

话虽如此，就我个人而言，我仍然犹豫不决，因为我遇到了一些重复问题，这让我想起了过去本地 LLM 的时代。然而，这可能有各种解释，所以我将继续调查和进一步测试它，因为它无疑是开放式 LLM 的一个里程碑。
**Llama 3.3 70B Instruct**是 Meta Llama 系列的最新迭代，专注于多语言性，因此其通用性能与前代产品没有太大差异。尽管如此，即使量化到仅 4 位，它仍获得了约 71% 的分数，这比未量化（！）的 Llama 3.1 70B Instruct 稍好，几乎与 gpt-4o-2024-11-20 持平！

这里没什么好说的了，Llama 在其他模型，尤其是来自中国的模型面前，有些黯然失色。所以期待 Llama 4 能带来什么，希望能尽快到来。
**Llama 3.1 Nemotron 70B Instruct** 是这批模型中最老的一个，3 个月大的它在 LLM 领域已基本算是“古董”了。不过，它仍然表现稳健，在约 4 位量化下得分约为 70%，与它所基于的未量化 Llama 3.1 70B 非常接近。

测试中并未反映出其使用感受——它与其他模型不同，更像是一种多项选择对话，而非普通聊天。这可能是好是坏，取决于您的用例。对于客户支持机器人等场景，这种风格可能非常适合。
和 DeepSeek-V3 一样，我很惊讶（甚至有些失望）**QVQ-72B-Preview** 没有取得更高的分数。QwQ 32B 的表现好得多，但即使拥有 16K 的最大 token，QVQ 72B 也没有通过更多推理来提高性能。它只得了 70%，而 QwQ 32B 是 79%，Qwen2.5 72B 是 78%。

但这也许是意料之中的，因为 QVQ 专注于视觉推理——这并不是这个基准测试所衡量的。然而，考虑到它基于 Qwen，以及 QwQ 32B 和 Qwen 72B 模型的出色表现，我曾希望 QVQ 兼具 72B 和推理能力能对其整体性能产生更大的影响。

因此，我们必须继续等待 QwQ 72B 的发布，看看更多的参数能否进一步提高推理能力，以及提高多少。但如果您有视觉推理的用例，这可能是本地模型中最好（也是唯一）的选择。
**Falcon3 10B Instruct**表现出乎意料的好，得分 61%。大多数小型模型甚至无法通过 50% 的阈值，根本无法进入排行榜（例如，我测试的 IBM Granite 8B 就未能入选）。

Falcon3 10B 甚至超越了 Mistral Small，后者虽然有 22B，但体积是它的两倍多。如果您需要一个体积小巧但能够处理英语、法语、西班牙语或葡萄牙语的模型，绝对值得一试。

关于基准

MMLU-Pro基准是一个全面的评估大型语言模型的工具，涵盖计算机科学、数学、物理、化学等多个类别。它旨在评估模型在广泛学科中理解和应用知识的能力，为通用智能提供一个稳健的衡量标准。虽然它是一个多项选择题测试，但与前身 MMLU 中的 4 个答案选项不同，现在每个问题有 10 个选项，这大大降低了偶然答对的概率。此外，重点日益放在复杂的推理任务而非纯粹的事实知识上。

对于我的基准测试，目前我仅限于计算机科学类别，其中包含 410 个问题。这一务实决定基于几个因素：首先，我特别重视我的日常工作环境中模型的响应，因为我经常在日常工作中使用这些模型。其次，在消费级硬件上运行本地模型存在计算时间的实际限制——一次运行对于大型模型来说已经需要几个小时，而我通常会进行至少两次运行以确保一致性。

与通常只报告单一分数的基准测试不同，我为每个模型进行多次测试运行，以捕捉性能的可变性。这种全面的方法可以更准确、细致地了解每个模型的真实能力。通过对每个模型执行至少两次基准测试运行，我建立了对性能水平和一致性的稳健评估。结果中包含误差条，显示标准差，说明了性能在不同测试运行中的变化情况。

仅这项研究的基准测试就耗费了超过70 **88** 小时的运行时间。如果增加额外的类别或运行次数，在可用资源下，测试时长会变得如此之长，以至于研究完成时，被测试的模型就已经过时了。因此，建立实用的框架条件和限制对于在合理的时间范围内获得有意义的结果至关重要。

详细结果

这是完整的表格，包括原始报告中的先前结果

模型	HF 主模型名称	HF 草稿模型名称（推测解码）	大小	格式	API	GPU	GPU 内存	运行	时长	总计	%	TIGER-Lab	正确随机猜测	提示词 token	每秒令牌数	完成令牌数	每秒令牌数
claude-3-5-sonnet-20241022	-	-	-	-	Anthropic	-	-	1/2	31 分 50 秒	340/410	82.93%	~= 82.44%		694458	362.78	97438	50.90
claude-3-5-sonnet-20241022	-	-	-	-	Anthropic	-	-	2/2	31 分 39 秒	338/410	82.44%	== 82.44%		694458	364.82	97314	51.12
gemini-1.5-pro-002	-	-	-	-	Gemini	-	-	1/2	31 分 7 秒	335/410	81.71%	> 71.22%		648675	346.82	78311	41.87
gemini-1.5-pro-002	-	-	-	-	Gemini	-	-	2/2	30 分 40 秒	327/410	79.76%	> 71.22%		648675	351.73	76063	41.24
QwQ-32B-Preview (8.0bpw EXL2, max_tokens=16384)	bartowski/QwQ-32B-Preview-exl2_8_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	38436MiB	1/2	2 小时 3 分 30 秒	325/410	79.27%		0/2, 0.00%	656716	88.58	327825	44.22
QwQ-32B-Preview (8.0bpw EXL2, max_tokens=16384)	bartowski/QwQ-32B-Preview-exl2_8_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	38436MiB	2/2	2 小时 3 分 35 秒	324/410	79.02%			656716	88.52	343440	46.29
Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 缓存)	wolfram/Athene-V2-Chat-4.65bpw-h6-exl2	-	72B	EXL2	TabbyAPI	RTX 6000	44496MiB	1/2	2 小时 13 分 5 秒	326/410	79.51%	> 73.41%		656716	82.21	142256	17.81
Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 缓存)	wolfram/Athene-V2-Chat-4.65bpw-h6-exl2	-	72B	EXL2	TabbyAPI	RTX 6000	44496MiB	2/2	2 小时 14 分 53 秒	317/410	77.32%	> 73.41%		656716	81.11	143659	17.74
Qwen2.5-72B-Instruct (4.65bpw EXL2, Q4 缓存)	LoneStriker/Qwen2.5-72B-Instruct-4.65bpw-h6-exl2	-	72B	EXL2	TabbyAPI	2x RTX 3090	41150MiB	1/2	3 小时 7 分 58 秒	320/410	78.05%	> 74.88%		656716	58.21	139499	12.36
Qwen2.5-72B-Instruct (4.65bpw EXL2, Q4 缓存)	LoneStriker/Qwen2.5-72B-Instruct-4.65bpw-h6-exl2	-	72B	EXL2	TabbyAPI	2x RTX 3090	41150MiB	2/2	3 小时 5 分 19 秒	319/410	77.80%	> 74.88%		656716	59.04	138135	12.42
🆕 DeepSeek-V3	deepseek-ai/DeepSeek-V3	-	671B	HF	深度求索	-	-	1/4	20分22秒	320/410	78.05%			628029	512.38	66807	54.50
🆕 DeepSeek-V3	deepseek-ai/DeepSeek-V3	-	671B	HF	深度求索	-	-	2/4	27分43秒	320/410	78.05%			628029	376.59	66874	40.10
🆕 DeepSeek-V3	deepseek-ai/DeepSeek-V3	-	671B	HF	深度求索	-	-	3/4	19分45秒	319/410	77.80%			628029	528.39	64470	54.24
🆕 DeepSeek-V3	deepseek-ai/DeepSeek-V3	-	671B	HF	深度求索	-	-	4/4	19分45秒	319/410	77.80%			628029	375.73	69531	41.60
QwQ-32B-Preview (4.25bpw EXL2, max_tokens=16384)	bartowski/QwQ-32B-Preview-exl2_4_25	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	27636MiB	1/2	1小时56分8秒	319/410	77.80%		0/1, 0.00%	656716	94.20	374973	53.79
QwQ-32B-Preview (4.25bpw EXL2, max_tokens=16384)	bartowski/QwQ-32B-Preview-exl2_4_25	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	27636MiB	2/2	1小时55分44秒	318/410	77.56%			656716	94.45	377638	54.31
gpt-4o-2024-08-06	-	-	-	-	OpenAI	-	-	1/2	34 分 54 秒	320/410	78.05%	~= 78.29%	1/2, 50.00%	631448	300.79	99103	47.21
gpt-4o-2024-08-06	-	-	-	-	OpenAI	-	-	2/2	42 分 41 秒	316/410	77.07%	~< 78.29%	1/3, 33.33%	631448	246.02	98466	38.36
QwQ-32B-Preview (8.0bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_8_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	38528MiB	1/4	1小时29分49秒	324/410	79.02%		0/1, 0.00%	656716	121.70	229008	42.44
QwQ-32B-Preview (8.0bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_8_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	38528MiB	2/4	1小时32分30秒	314/410	76.59%		0/2, 0.00%	656716	118.24	239161	43.06
QwQ-32B-Preview (8.0bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_8_0	-	32B	EXL2	TabbyAPI	RTX 6000	37000MiB	3/4	2小时25分24秒	308/410	75.12%		0/2, 0.00%	656716	75.23	232208	26.60
QwQ-32B-Preview (8.0bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_8_0	-	32B	EXL2	TabbyAPI	RTX 6000	37000MiB	4/4	2小时27分27秒	305/410	74.39%		0/3, 0.00%	656716	74.19	235650	26.62
QwQ-32B-Preview-abliterated (4.5bpw EXL2, max_tokens=16384)	ibrahimkettaneh_QwQ-32B-Preview-abliterated-4.5bpw-h8-exl2	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	28556MiB	1/2	2小时10分53秒	310/410	75.61%			656716	83.59	412512	52.51
QwQ-32B-Preview-abliterated (4.5bpw EXL2, max_tokens=16384)	ibrahimkettaneh_QwQ-32B-Preview-abliterated-4.5bpw-h8-exl2	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	28556MiB	2/2	2小时25分29秒	310/410	75.61%			656716	75.20	478590	54.80
mistral-large-2407 (123B)	mistralai/Mistral-Large-Instruct-2407	-	123B	HF	Mistral	-	-	1/2	40 分 23 秒	310/410	75.61%	> 70.24%		696798	287.13	79444	32.74
mistral-large-2407 (123B)	mistralai/Mistral-Large-Instruct-2407	-	123B	HF	Mistral	-	-	2/2	46 分 55 秒	308/410	75.12%	> 70.24%	0/1, 0.00%	696798	247.21	75971	26.95
Llama-3.1-405B-Instruct-FP8	meta-llama/Llama-3.1-405B-Instruct-FP8	-	405B	HF	IONOS	-	-	1/2	2 小时 5 分 28 秒	311/410	75.85%			648580	86.11	79191	10.51
Llama-3.1-405B-Instruct-FP8	meta-llama/Llama-3.1-405B-Instruct-FP8	-	405B	HF	IONOS	-	-	2/2	2 小时 10 分 19 秒	307/410	74.88%			648580	82.90	79648	10.18
mistral-large-2411 (123B)	mistralai/Mistral-Large-Instruct-2411	-	123B	HF	Mistral	-	-	1/2	41 分 46 秒	302/410	73.66%		1/3, 33.33%	696798	277.70	82028	32.69
mistral-large-2411 (123B)	mistralai/Mistral-Large-Instruct-2411	-	123B	HF	Mistral	-	-	2/2	32 分 47 秒	300/410	73.17%		0/1, 0.00%	696798	353.53	77998	39.57
QwQ-32B-Preview (4.25bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_4_25	-	32B	EXL2	TabbyAPI	RTX 6000	26198MiB	1/4	1小时39分49秒	308/410	75.12%		0/1, 0.00%	656716	109.59	243552	40.64
QwQ-32B-Preview (4.25bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_4_25	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	27750MiB	2/4	1小时22分12秒	304/410	74.15%			656716	133.04	247314	50.10
QwQ-32B-Preview (4.25bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_4_25	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	27750MiB	3/4	1小时21分39秒	296/410	72.20%			656716	133.94	246020	50.18
QwQ-32B-Preview (4.25bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_4_25	-	32B	EXL2	TabbyAPI	RTX 6000	26198MiB	4/4	1小时42分33秒	294/410	71.71%			656716	106.63	250222	40.63
chatgpt-4o-latest @ 2024-11-18	-	-	-	-	OpenAI	-	-	1/2	28 分 17 秒	302/410	73.66%	< 78.29%	2/4, 50.00%	631448	371.33	146558	86.18
chatgpt-4o-latest @ 2024-11-18	-	-	-	-	OpenAI	-	-	2/2	28 分 31 秒	298/410	72.68%	< 78.29%	2/2, 100.00%	631448	368.19	146782	85.59
gpt-4o-2024-11-20	-	-	-	-	OpenAI	-	-	1/2	25 分 35 秒	296/410	72.20%		1/7, 14.29%	631448	410.38	158694	103.14
gpt-4o-2024-11-20	-	-	-	-	OpenAI	-	-	2/2	26 分 10 秒	294/410	71.71%		1/7, 14.29%	631448	400.95	160378	101.84
🆕 Llama-3.3-70B-Instruct (4.0bpw EXL2)	LoneStriker/Llama-3.3-70B-Instruct-4.0bpw-h6-exl2	-	70B	EXL2	TabbyAPI	RTX 6000	47148MiB	1/2	2小时2分33秒	293/410	71.46%			648580	88.15	87107	11.84
🆕 Llama-3.3-70B-Instruct (4.0bpw EXL2)	LoneStriker/Llama-3.3-70B-Instruct-4.0bpw-h6-exl2	-	70B	EXL2	TabbyAPI	RTX 6000	47148MiB	2/2	1小时33分59秒	293/410	71.46%			534360	94.70	89510	15.86
Llama-3.1-70B-Instruct	meta-llama/Llama-3.1-70B-Instruct	-	70B	HF	IONOS	-	-	1/2	41 分 12 秒	291/410	70.98%	> 66.34%	3/12, 25.00%	648580	261.88	102559	41.41
Llama-3.1-70B-Instruct	meta-llama/Llama-3.1-70B-Instruct	-	70B	HF	IONOS	-	-	2/2	39 分 48 秒	287/410	70.00%	> 66.34%	3/14, 21.43%	648580	271.12	106644	44.58
🆕 Llama-3.1-Nemotron-70B-Instruct (4.25bpw EXL2)	bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-exl2_4_25	-	70B	EXL2	TabbyAPI	RTX 6000	40104MiB	1/2	2小时13分3秒	290/410	70.73%			640380	80.18	157235	19.69
🆕 Llama-3.1-Nemotron-70B-Instruct (4.25bpw EXL2)	bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-exl2_4_25	-	70B	EXL2	TabbyAPI	RTX 6000	40104MiB	2/2	2小时13分15秒	287/410	70.00%		0/1, 0.00%	640380	80.07	157471	19.69
🆕 QVQ-72B-Preview (4.65bpw EXL2, max_tokens=16384)	wolfram/QVQ-72B-Preview-4.65bpw-h6-exl2	Qwen/Qwen2.5-Coder-0.5B-Instruct	72B	EXL2	TabbyAPI	RTX 6000	46260MiB	1/2	3小时43分12秒	290/410	70.73%		1/3, 33.33%	656716	49.02	441187	32.93
🆕 QVQ-72B-Preview (4.65bpw EXL2, max_tokens=16384)	wolfram/QVQ-72B-Preview-4.65bpw-h6-exl2	Qwen/Qwen2.5-Coder-0.5B-Instruct	72B	EXL2	TabbyAPI	RTX 6000	46260MiB	2/2	3小时47分29秒	284/410	69.27%		0/2, 0.00%	656716	48.10	450363	32.99
gemini-1.5-flash-002	-	-	-	-	Gemini	-	-	1/2	13 分 19 秒	288/410	70.24%	> 63.41%	1/6, 16.67%	648675	808.52	80535	100.38
gemini-1.5-flash-002	-	-	-	-	Gemini	-	-	2/2	22 分 30 秒	285/410	69.51%	> 63.41%	2/7, 28.57%	648675	479.42	80221	59.29
Llama-3.2-90B-Vision-Instruct	meta-llama/Llama-3.2-90B-Vision-Instruct	-	90B	HF	Azure	-	-	1/2	33 分 6 秒	289/410	70.49%		4/7, 57.14%	640380	321.96	88997	44.74
Llama-3.2-90B-Vision-Instruct	meta-llama/Llama-3.2-90B-Vision-Instruct	-	90B	HF	Azure	-	-	2/2	31 分 31 秒	281/410	68.54%		2/5, 40.00%	640380	338.10	85381	45.08
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	Qwen/Qwen2.5-Coder-3B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	45880MiB	1/7	41 分 59 秒	289/410	70.49%			656716	260.29	92126	36.51
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	40036MiB	2/7	34 分 24 秒	286/410	69.76%			656716	317.48	89487	43.26
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	Qwen/Qwen2.5-Coder-3B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	45880MiB	3/7	41 分 27 秒	283/410	69.02%		0/1, 0.00%	656716	263.62	90349	36.27
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	bartowski/Qwen2.5-Coder-7B-Instruct-exl2_8_0	32B	EXL2	TabbyAPI	RTX 6000	43688MiB	4/7	42 分 32 秒	283/410	69.02%		0/1, 0.00%	656716	256.77	90899	35.54
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	bartowski/Qwen2.5-Coder-7B-Instruct-exl2_8_0	32B	EXL2	TabbyAPI	RTX 6000	43688MiB	5/7	44 分 34 秒	282/410	68.78%		0/1, 0.00%	656716	245.24	96470	36.03
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	-	32B	EXL2	TabbyAPI	RTX 6000	38620MiB	6/7	1 小时 2 分 8 秒	282/410	68.78%			656716	175.98	92767	24.86
Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2)	bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	40036MiB	7/7	34 分 56 秒	280/410	68.29%			656716	312.66	91926	43.76
QwQ-32B-Preview (3.0bpw EXL2, max_tokens=8192)	bartowski/QwQ-32B-Preview-exl2_3_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	22990MiB	1/2	1小时15分18秒	289/410	70.49%			656716	145.23	269937	59.69
QwQ-32B-Preview (3.0bpw EXL2, max_tokens=8192)	bartowski/QwQ-32B-Preview-exl2_3_0	Qwen/Qwen2.5-Coder-0.5B-Instruct	32B	EXL2	TabbyAPI	RTX 6000	22990MiB	2/2	1小时19分50秒	274/410	66.83%		0/2, 0.00%	656716	137.01	291818	60.88
Mistral-Large-Instruct-2411 (123B, 3.0bpw EXL2)	MikeRoz/mistralai_Mistral-Large-Instruct-2411-3.0bpw-h6-exl2	-	123B	EXL2	TabbyAPI	RTX 6000	47068MiB	1/2	1 小时 26 分 26 秒	284/410	69.27%		1/3, 33.33%	696798	134.23	79925	15.40
Mistral-Large-Instruct-2411 (123B, 3.0bpw EXL2)	MikeRoz/mistralai_Mistral-Large-Instruct-2411-3.0bpw-h6-exl2	-	123B	EXL2	TabbyAPI	RTX 6000	47068MiB	2/2	1 小时 26 分 10 秒	275/410	67.07%		0/2, 0.00%	696798	134.67	79778	15.42
Mistral-Large-Instruct-2407 (123B, 2.75bpw EXL2)	turboderp/Mistral-Large-Instruct-2407-123B-exl2_2.75bpw	-	123B	EXL2	TabbyAPI	RTX 6000	45096MiB	1/2	1 小时 8 分 8 秒	271/410	66.10%	< 70.24%		696798	170.29	66670	16.29
Mistral-Large-Instruct-2407 (123B, 2.75bpw EXL2)	turboderp/Mistral-Large-Instruct-2407-123B-exl2_2.75bpw	-	123B	EXL2	TabbyAPI	RTX 6000	45096MiB	2/2	1 小时 10 分 38 秒	268/410	65.37%	< 70.24%	1/3, 33.33%	696798	164.23	69182	16.31
QwQ-32B-Preview (3.0bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_3_0	-	32B	EXL2	TabbyAPI	RTX 6000	21574MiB	1/2	1小时5分30秒	268/410	65.37%		1/3, 33.33%	656716	166.95	205218	52.17
QwQ-32B-Preview (3.0bpw EXL2)	bartowski/QwQ-32B-Preview-exl2_3_0	-	32B	EXL2	TabbyAPI	RTX 6000	21574MiB	2/2	1小时8分44秒	266/410	64.88%			656716	159.10	215616	52.24
Mistral-Large-Instruct-2411 (123B, 2.75bpw EXL2)	wolfram/Mistral-Large-Instruct-2411-2.75bpw-h6-exl2	-	123B	EXL2	TabbyAPI	RTX 6000	45096MiB	1/2	1 小时 11 分 50 秒	267/410	65.12%		1/4, 25.00%	696798	161.53	70538	16.35
Mistral-Large-Instruct-2411 (123B, 2.75bpw EXL2)	wolfram/Mistral-Large-Instruct-2411-2.75bpw-h6-exl2	-	123B	EXL2	TabbyAPI	RTX 6000	45096MiB	2/2	1 小时 13 分 50 秒	243/410	59.27%		0/4, 0.00%	696798	157.18	72718	16.40
🆕 Falcon3-10B-Instruct	tiiuae/Falcon3-10B-Instruct	-	10B	HF	Ollama	RTX 6000	20906MiB	1/2	35分15秒	251/410	61.22%		2/5, 40.00%	702578	331.57	75501	35.63
🆕 Falcon3-10B-Instruct	tiiuae/Falcon3-10B-Instruct	-	10B	HF	Ollama	RTX 6000	20906MiB	2/2	35分21秒	251/410	61.22%		2/5, 40.00%	702578	330.66	75501	35.53
mistral-small-2409 (22B)	mistralai/Mistral-Small-Instruct-2409	-	22B	HF	Mistral	-	-	1/2	25 分 3 秒	243/410	59.27%	> 53.66%	1/4, 25.00%	696798	462.38	73212	48.58
mistral-small-2409 (22B)	mistralai/Mistral-Small-Instruct-2409	-	22B	HF	Mistral	-	-	2/2	20 分 45 秒	239/410	58.29%	> 53.66%	1/4, 25.00%	696798	558.10	76017	60.89

模型：模型名称（含相关参数和设置详情）
HF 主模型名称：Hugging Face 上列出的被测模型的完整名称
HF 草稿模型名称（推测解码）：用于推测解码的草稿模型（如果适用）
大小：参数数量
格式：模型格式类型（HF、EXL2 等）
API：服务提供商（TabbyAPI 表示本地部署）
GPU：用于本次基准测试运行的显卡
GPU 内存：分配给模型和配置的显存
运行：基准测试运行序列号
持续时间：基准测试总运行时间
总计：正确答案数量（决定排名！）
%：正确答案百分比
TIGER-Lab：TIGER-Lab（MMLU-Pro 的开发者）的 CS 基准测试结果与我的比较
正确随机猜测：当 MMLU-Pro 无法明确识别模型的答案选择时，它会默认进行随机猜测，并报告这些随机猜测的数量及其准确性（高比例的随机猜测表明在遵循响应格式方面存在问题）
提示令牌数：输入文本的令牌计数
每秒令牌数：每秒处理的令牌数
完成令牌数：生成响应的令牌计数
每秒令牌数：每秒生成的令牌数

🆕 更新 2025-01-04：进一步分析后的额外见解

受到Teortaxes 在 X 上的宝贵反馈启发，我进行了额外的分析，揭示了引人入胜的见解

一个关键发现出现在比较 DeepSeek-V3 和 Qwen2.5-72B-Instruct 时：尽管两个模型都达到了 77.93% 的相同准确率，但它们的响应模式却大相径庭。尽管总体性能匹配，但它们在 101 个问题上给出了不同的答案！此外，它们共享了 45 个错误响应，这与它们各自的错误是分开的。

对未回答问题的分析也产生了同样有趣的结果：在顶级本地模型（Athene-V2-Chat、DeepSeek-V3、Qwen2.5-72B-Instruct 和 QwQ-32B-Preview）中，410 个问题中只有 30 个（7.32%）所有模型都给出了错误答案。当将分析范围扩大到包括 Claude 和 GPT-4 时，所有模型都未能解决的问题数量下降到 23 个（5.61%）。

这证明 MMLU-Pro CS 基准测试没有 78% 的软上限。如果存在上限，那它应该在 95% 左右，这证实了该基准测试现在和可预见的未来仍然是评估 LLM 的一个稳健有效的工具。

🆕 更新 2025-01-05：分析了所有未解决问题的结果

在分析了我测试模型中所有未解决问题的结果后，只有 410 个问题中的 10 个（2.44%）仍未解决。

这表明 MMLU-Pro CS 基准测试保持了较高的上限，并且仍然是评估高级语言模型的宝贵工具。

Wolfram Ravenwolf 是一名德国人工智能工程师，也是一名活跃于国际的顾问和知名研究员，他对本地语言模型尤其充满热情。您可以在X和Bluesky上关注他，在 HF 和Reddit上阅读他之前的 LLM 测试和比较，在Hugging Face上查看他的模型，在Ko-fi上给他打赏，或者预约他的咨询服务。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论