关于

每周都有大量的大型语言模型 (LLM) 和聊天机器人发布，它们通常都夸大其性能，因此很难筛选出开源社区取得的真正进展，以及哪个模型是当前最先进的。

我们在此处写了一篇发布博客这里来解释我们为什么要推出这个排行榜！

任务

📈 我们使用Eleuther AI 语言模型评估框架在 6 个关键基准上评估模型，这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

IFEval (https://arxiv.org/abs/2311.07911) – IFEval 是一个数据集，旨在测试模型遵循明确指令的能力，例如“包含关键词 x”或“使用格式 y”。重点在于模型对格式化指令的遵守情况，而不是生成的内容，从而允许使用严格和严谨的指标。
BBH (Big Bench Hard) (https://arxiv.org/abs/2210.09261) – 从 BigBench 数据集中选取的 23 个具有挑战性的任务的子集，用于评估语言模型。这些任务使用客观指标，难度很高，并且具有足够的样本量以保证统计显著性。它们包括多步算术、算法推理（例如，布尔表达式、SVG 图形）、语言理解（例如，讽刺检测、名称消歧）和世界知识。BBH 的性能与人类偏好有很好的相关性，为模型能力提供了宝贵的见解。
MATH (https://arxiv.org/abs/2103.03874) – MATH 是从多个来源收集的高中水平竞赛问题的汇编，使用 Latex 格式化方程，使用 Asymptote 格式化图形，格式统一。生成的内容必须符合非常具体的输出格式。我们只保留 5 级 MATH 问题，并称之为 MATH Lvl 5。
GPQA (研究生级别谷歌防作弊问答基准) (https://arxiv.org/abs/2311.12022) – GPQA 是一个极具挑战性的知识数据集，其问题由生物学、物理学和化学等领域的博士级领域专家设计。这些问题对非专业人士来说很难，但对专家来说相对容易。该数据集经过多轮验证，以确保其难度和事实准确性。对 GPQA 的访问受到门控机制的限制，以最大限度地降低数据污染的风险。因此，根据作者的要求，我们不提供此数据集的纯文本示例。
MuSR (多步软推理) (https://arxiv.org/abs/2310.16049) – MuSR 是一个新的数据集，由算法生成的复杂问题组成，每个问题长约 1000 字。这些问题包括谋杀案、物品放置问题和团队分配优化。解决这些问题需要模型将推理与长距离上下文解析相结合。在该数据集上，很少有模型能取得比随机猜测更好的性能。
MMLU-PRO (海量多任务语言理解 - 专业版) (https://arxiv.org/abs/2406.01574) – MMLU-Pro 是 MMLU 数据集的改进版本，后者一直是多项选择知识评估的标准。最近的研究发现，原始 MMLU 存在一些问题，例如数据嘈杂（一些无法回答的问题）以及由于模型能力的进步和数据污染的增加而导致难度下降。MMLU-Pro 通过向模型提供 10 个选项而不是 4 个选项、要求对更多问题进行推理以及经过专家审查以减少噪音来解决这些问题。因此，MMLU-Pro 的质量更高，并且目前比原始版本更具挑战性。

对于所有这些评估，分数越高越好。我们选择这些基准是因为它们在 0-shot 和 few-shot 设置下测试了各种领域的推理和常识。

模型类型

🟢 预训练模型： 使用掩码建模在给定文本语料库上训练的新的基础模型。
🟩 持续预训练模型： 使用掩码建模在更多语料库（可能包括 IFT/聊天数据）上持续训练的新的基础模型。
🔶 在领域特定数据集上微调的模型： 在更多数据上微调的预训练模型。
💬 聊天模型 (RLHF, DPO, IFT, …)： 使用 IFT (任务指令数据集)、RLHF、DPO (通过增加策略来改变模型损失) 等进行类聊天微调。
🤝 基础合并和 Moerges 模型： Merges 或 MoErges，即未经额外微调而合并或融合的模型。

结果

您可以找到

results Hugging Face 数据集中的详细数值结果。
每个模型的details中有关模型输入/输出的详细信息，您可以通过单击模型名称后的 📄 表情符号来访问。
requests Hugging Face 数据集中的社区查询和运行状态。

如果模型名称包含“Flagged”，则表示它已被社区标记，可能应该被忽略！单击链接将重定向到有关该模型的讨论。

复现性

要复现我们的结果，您可以使用我们的 lm_eval 分支，因为目前我们的 PR 并非全部都已合并。

git clone git@github.com:huggingface/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout main
pip install -e .
lm-eval --model_args="pretrained=<your_model>,revision=<your_model_revision>,dtype=<model_dtype>" --tasks=leaderboard  --batch_size=auto --output_path=<output_path>

注意： 对于指令模型，请添加 --apply_chat_template 和 fewshot_as_multiturn 选项。

注意： 您可以预期，由于填充的原因，不同批次大小的结果会略有不同。

任务评估和参数

IFEval:

任务：“IFEval”
度量：实例和提示级别的严格准确率 (inst_level_strict_acc,none 和 prompt_level_strict_acc,none)
样本数 (Shots)：实例级严格准确率和提示级严格准确率均为 0-shot
num_choices：实例级和提示级严格准确率均为 0。

Big Bench Hard (BBH):

概述任务：“BBH”
样本数 (Shots)：每个子任务 3-shot
度量：所有子任务的归一化准确率 (acc_norm,none)
带 num_choices 的子任务列表
- BBH 体育理解，num_choices=2
- BBH 跟踪洗牌对象（三个对象），num_choices=3
- BBH 导航，num_choices=2
- BBH 讽刺话，num_choices=2
- BBH 日期理解，num_choices=6
- BBH 关于彩色物体的推理，num_choices=18
- BBH 对象计数，num_choices=19 (应为 18，但我们添加了一个“0”选项)
- BBH 逻辑推导（七个对象），num_choices=7
- BBH 几何形状，num_choices=11
- BBH 谎言之网，num_choices=2
- BBH 电影推荐，num_choices=6
- BBH 逻辑推导（五个对象），num_choices=5
- BBH 突出翻译错误检测，num_choices=6
- BBH 消歧问答，num_choices=3
- BBH 时间序列，num_choices=4
- BBH 倒装法，num_choices=2
- BBH 逻辑推导（三个对象），num_choices=3
- BBH 因果判断，num_choices=2
- BBH 形式谬误，num_choices=2
- BBH 跟踪洗牌对象（七个对象），num_choices=7
- BBH 破坏名字，num_choices=6
- BBH 表格中的企鹅，num_choices=5
- BBH 布尔表达式，num_choices=2
- BBH 跟踪洗牌对象（五个对象），num_choices=5

数学挑战:

任务：“Math Level 5”
度量：完全匹配 (exact_match,none)
样本数 (Shots)：4-shot
num_choices: 0

通用目的问答 (GPQA):

任务：“GPQA”
度量：归一化准确率 (acc_norm,none)
样本数 (Shots)：0-shot
num_choices: 4

MuSR:

概述任务：“MuSR”
度量：所有子任务的归一化准确率 (acc_norm,none)
MuSR 谋杀案：0-shot，num_choices: 2
MuSR 物品放置：0-shot，num_choices: 5
MuSR 团队分配：0-shot，num_choices: 3

MMLU-PRO:

任务：“MMLU-PRO”
度量：准确率 (acc,none)
样本数 (Shots)：5-shot
num_choices: 10

< > 在 GitHub 上更新