关于
随着每周发布的大量语言模型 (LLM) 和聊天机器人,以及它们在性能方面的夸大声明,很难过滤掉开源社区取得的真正进展,以及哪种模型是当前最先进的。
我们撰写了一篇发布博客 此处 来解释为什么我们引入了此排行榜!
任务
📈 我们使用 Eleuther AI 语言模型评估工具 在 6 个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。
- IFEval (https://arxiv.org/abs/2311.07911) – IFEval 是一个数据集,旨在测试模型遵循明确指令的能力,例如“包含关键词 x”或“使用格式 y”。重点在于模型对格式指令的遵守程度,而不是生成的内容,从而允许使用严格和严格的指标。
- BBH(大规模基准测试困难) (https://arxiv.org/abs/2210.09261) – 大规模基准测试数据集的 23 个具有挑战性的任务子集,用于评估语言模型。这些任务使用客观指标,非常困难,并且具有足够的样本量以进行统计显著性检验。它们包括多步算术、算法推理(例如布尔表达式、SVG 形状)、语言理解(例如讽刺检测、名称消歧)和世界知识。BBH 性能与人类偏好密切相关,为模型能力提供了宝贵的见解。
- MATH (https://arxiv.org/abs/2103.03874) – MATH 是从多个来源收集的高中水平竞赛问题的汇编,使用 Latex 统一格式化方程式,使用 Asymptote 统一格式化图形。生成内容必须符合非常具体的输出格式。我们只保留 5 级 MATH 问题,并将其称为 MATH 5 级。
- GPQA(研究生级防谷歌问答基准测试) (https://arxiv.org/abs/2311.12022) – GPQA 是一个非常具有挑战性的知识数据集,问题由生物学、物理学和化学等领域的博士级领域专家精心设计。这些问题旨在对非专业人士来说很难,但对专家来说相对容易。该数据集经过多轮验证,以确保难度和事实准确性。对 GPQA 的访问通过门控机制受到限制,以最大限度地降低数据污染风险。因此,我们不提供来自此数据集的纯文本示例,如作者所要求的那样。
- MuSR(多步软推理) (https://arxiv.org/abs/2310.16049) – MuSR 是一个新的数据集,包含算法生成的复杂问题,每个问题约 1,000 个词。这些问题包括谋杀谜题、物体放置问题和团队分配优化。解决这些问题需要模型将推理与长距离上下文解析相结合。很少有模型在这个数据集上获得比随机性能更好的结果。
- MMLU-PRO(大规模多任务语言理解 - 专业) (https://arxiv.org/abs/2406.01574) – MMLU-Pro 是 MMLU 数据集的改进版本,MMLU 数据集一直是多项选择知识评估的标准。最近的研究发现了原始 MMLU 中的问题,例如噪声数据(一些无法回答的问题)以及由于模型能力的进步和数据污染增加而导致的难度降低。MMLU-Pro 通过向模型提供 10 个选择而不是 4 个选择来解决这些问题,要求对更多问题进行推理,并经过专家审查以减少噪声。因此,MMLU-Pro 的质量更高,目前比原始版本更具挑战性。
对于所有这些评估,分数越高越好。我们选择这些基准测试是因为它们在零样本和少样本设置中测试了广泛领域中的各种推理和一般知识。
结果
您可以找到
- 在
results
Hugging Face 数据集 中的详细数值结果。 - 有关模型输入/输出的详细信息,请参见每个模型的
details
,您可以通过单击模型名称后的 📄 表情符号访问。 - 在
requests
Hugging Face 数据集 中的社区查询和运行状态。
如果模型名称包含“Flagged”,则表示它已被社区标记,可能应该忽略!单击链接将重定向到有关该模型的讨论。
可重复性
要重现我们的结果,您可以使用我们对 lm_eval 的分支,因为我们的 PR 目前还没有全部合并到其中。
git clone [email protected]:huggingface/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout adding_all_changess
pip install -e .[math,ifeval,sentencepiece]
lm-eval --model_args="pretrained=<your_model>,revision=<your_model_revision>,dtype=<model_dtype>" --tasks=leaderboard --batch_size=auto --output_path=<output_path>
注意:对于指令模型,请添加 --apply_chat_template
和 fewshot_as_multiturn
选项。
注意:由于填充的原因,您可以预期结果会因不同批次大小而略有不同。
任务评估和参数
IFEval:
- 任务:“IFEval”
- 度量:实例和提示级别的严格准确率 (
inst_level_strict_acc,none
和prompt_level_strict_acc,none
) - 样本:实例级别严格准确率和提示级别严格准确率的零样本
- num_choices:实例级别严格准确率和提示级别严格准确率的 0。
大规模基准测试困难 (BBH):
- 概述任务:“BBH”
- 样本:每个子任务的 3 样本
- 度量:所有子任务的归一化准确率 (
acc_norm,none
) - 带
num_choices
的子任务列表- BBH 体育理解,num_choices=2
- BBH 跟踪随机排列的物体(三个物体),num_choices=3
- BBH 导航,num_choices=2
- BBH 狡辩,num_choices=2
- BBH 日期理解,num_choices=6
- BBH 有关彩色物体的推理,num_choices=18
- BBH 物体计数,num_choices=19(应该是 18 但我们添加了一个“0”选择)
- BBH 逻辑推演(七个物体),num_choices=7
- BBH 几何形状,num_choices=11
- BBH 谎言网,num_choices=2
- BBH 电影推荐,num_choices=6
- BBH 逻辑推演(五个物体),num_choices=5
- BBH 显著翻译错误检测,num_choices=6
- BBH 消歧义问答,num_choices=3
- BBH 时间序列,num_choices=4
- BBH 倒置法,num_choices=2
- BBH 逻辑推演(三个物体),num_choices=3
- BBH 因果判断,num_choices=2
- BBH 正式谬误,num_choices=2
- BBH 跟踪随机排列的物体(七个物体),num_choices=7
- BBH 遗迹名称,num_choices=6
- BBH 表格中的企鹅,num_choices=5
- BBH 布尔表达式,num_choices=2
- BBH 跟踪随机排列的物体(五个物体),num_choices=5
数学挑战:
- 任务:“数学 5 级”
- 指标:完全匹配(
exact_match,none
) - 样本:4-shot
- num_choices: 0
通用目的问答 (GPQA):
- 任务:“GPQA”
- 指标:标准化准确率(
acc_norm,none
) - 样本:0-shot
- num_choices: 4
MuSR:
- 概述任务:“MuSR”
- 度量:所有子任务的归一化准确率 (
acc_norm,none
) - MuSR 谋杀谜题:0-shot,num_choices: 2
- MuSR 物体放置:0-shot,num_choices: 5
- MuSR 团队分配:0-shot,num_choices: 3
MMLU-PRO:
- 任务:“MMLU-PRO”
- 指标:准确率(
acc,none
) - 样本:5-shot
- num_choices: 10