排行榜文档

关于

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

关于

随着每周都有大量大型语言模型 (LLM) 和聊天机器人发布,并且常常伴随着对其性能的夸大宣传,因此很难区分开源社区正在取得的真正进展以及哪个模型是当前最先进的。

我们在此处发布了一篇发布博客 here 来解释我们引入此排行榜的原因!

任务

📈 我们使用 Eleuther AI 语言模型评估工具 ,一个统一的框架,在大量不同的评估任务上测试生成式语言模型,从而在 6 个关键基准上评估模型。

  • IFEval (https://arxiv.org/abs/2311.07911) – IFEval 是一个旨在测试模型遵循明确指令能力的数据集,例如“包含关键词 x”或“使用格式 y”。重点是模型对格式指令的遵守程度,而不是生成的内容,从而可以使用严格而严谨的指标。
  • BBH (Big Bench Hard) (https://arxiv.org/abs/2210.09261) – 来自 BigBench 数据集的 23 个具有挑战性的任务子集,用于评估语言模型。这些任务使用客观指标,难度极高,并且具有足够的样本量以实现统计显著性。它们包括多步算术、算法推理(例如,布尔表达式、SVG 形状)、语言理解(例如,讽刺检测、名称消歧)和世界知识。BBH 性能与人类偏好密切相关,为深入了解模型能力提供了有价值的见解。
  • MATH (https://arxiv.org/abs/2103.03874) – MATH 是从多个来源收集的高中级别竞赛题汇编,使用 Latex 对方程式进行一致格式化,并使用 Asymptote 对图形进行一致格式化。生成内容必须符合非常特定的输出格式。我们仅保留 5 级 MATH 问题,并将其称为 MATH Lvl 5。
  • GPQA (研究生级别 Google-Proof 问答基准) (https://arxiv.org/abs/2311.12022) – GPQA 是一个极具挑战性的知识数据集,其问题由生物学、物理学和化学等领域的博士级领域专家精心设计。这些问题对于外行人来说难度较大,但对于专家来说相对容易。该数据集经过多轮验证,以确保难度和事实准确性。通过门控机制限制对 GPQA 的访问,以最大限度地减少数据污染的风险。因此,根据作者的要求,我们不提供来自此数据集的纯文本示例。
  • MuSR (多步软推理) (https://arxiv.org/abs/2310.16049) – MuSR 是一个新的数据集,由算法生成的复杂问题组成,每个问题约 1,000 字。这些问题包括谋杀之谜、物体放置问题和团队分配优化。解决这些问题需要模型将推理与远程上下文解析相结合。很少有模型在此数据集上取得优于随机性能的成绩。
  • MMLU-PRO (大规模多任务语言理解 - 专业版) (https://arxiv.org/abs/2406.01574) – MMLU-Pro 是 MMLU 数据集的改进版本,MMLU 数据集一直是多项选择知识评估的标准。最近的研究发现原始 MMLU 存在问题,例如噪声数据(一些无法回答的问题)以及由于模型能力的进步和数据污染的增加而导致的难度降低。MMLU-Pro 通过为模型提供 10 个选项而不是 4 个选项来解决这些问题,需要对更多问题进行推理,并经过专家审查以减少噪声。因此,MMLU-Pro 质量更高,并且目前比原始版本更具挑战性。

对于所有这些评估,分数越高越好。我们选择这些基准是因为它们在 0-shot 和 few-shot 设置中测试了各个领域中各种推理和通用知识。

模型类型

  • 🟢 预训练模型: 使用掩码建模在给定的文本语料库上训练的新基础模型。
  • 🟩 持续预训练模型: 使用掩码建模在更多语料库(可能包括 IFT/聊天数据)上持续训练的新基础模型。
  • 🔶 在特定领域数据集上微调的模型: 在更多数据上微调的预训练模型。
  • 💬 聊天模型(RLHF、DPO、IFT,…): 使用 IFT(任务指令数据集)、RLHF、DPO(通过添加的策略更改模型损失)等进行的类似聊天的微调。
  • 🤝 基础合并和 Moerges 模型: 合并或 MoErges 模型,这些模型已合并或融合,无需额外的微调。

结果

你可以在

如果模型名称包含“Flagged”,则表示它已被社区标记,可能应该忽略!点击链接会将您重定向到关于该模型的讨论。

可复现性

要复现我们的结果,你可以使用我们的 lm_eval 分支,因为我们的 PR 目前尚未全部合并到其中。

git clone git@github.com:huggingface/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout main
pip install -e .
lm-eval --model_args="pretrained=<your_model>,revision=<your_model_revision>,dtype=<model_dtype>" --tasks=leaderboard  --batch_size=auto --output_path=<output_path>

注意: 对于指令模型,请添加 --apply_chat_templatefewshot_as_multiturn 选项。

注意: 由于填充,对于不同的批次大小,你可能会预期结果略有不同。

任务评估和参数

IFEval:

  • 任务:“IFEval”
  • 度量:实例级别和提示级别上的严格准确率(inst_level_strict_acc,noneprompt_level_strict_acc,none
  • Shots:实例级别严格准确率和提示级别严格准确率均为 0-shot
  • num_choices:实例级别和提示级别上的严格准确率均为 0。

Big Bench Hard (BBH):

  • 概述任务:“BBH”
  • Shots:每个子任务 3-shot
  • 度量:所有子任务的归一化准确率 (acc_norm,none)
  • 带有 num_choices 的子任务列表
    • BBH 体育理解,num_choices=2
    • BBH 追踪洗牌对象(三个对象),num_choices=3
    • BBH 导航,num_choices=2
    • BBH Snarks,num_choices=2
    • BBH 日期理解,num_choices=6
    • BBH 有关彩色对象的推理,num_choices=18
    • BBH 对象计数,num_choices=19(应为 18,但我们添加了“0”选项)
    • BBH 逻辑演绎(七个对象),num_choices=7
    • BBH 几何形状,num_choices=11
    • BBH 谎言之网,num_choices=2
    • BBH 电影推荐,num_choices=6
    • BBH 逻辑演绎(五个对象),num_choices=5
    • BBH 显著翻译错误检测,num_choices=6
    • BBH 消歧 QA,num_choices=3
    • BBH 时间序列,num_choices=4
    • BBH 倒装,num_choices=2
    • BBH 逻辑演绎(三个对象),num_choices=3
    • BBH 因果判断,num_choices=2
    • BBH 形式谬误,num_choices=2
    • BBH 追踪洗牌对象(七个对象),num_choices=7
    • BBH 废墟名称,num_choices=6
    • BBH 表格中的企鹅,num_choices=5
    • BBH 布尔表达式,num_choices=2
    • BBH 追踪洗牌对象(五个对象),num_choices=5

数学挑战:

  • 任务:“Math Level 5”
  • 度量:完全匹配 (exact_match,none)
  • Shots:4-shot
  • num_choices:0

通用目的问题解答 (GPQA):

  • 任务:“GPQA”
  • 度量:归一化准确率 (acc_norm,none)
  • Shots:0-shot
  • num_choices:4

MuSR:

  • 概述任务:“MuSR”
  • 度量:所有子任务的归一化准确率 (acc_norm,none)
  • MuSR 谋杀之谜:0-shot,num_choices:2
  • MuSR 对象放置:0-shot,num_choices:5
  • MuSR 团队分配:0-shot,num_choices:3

MMLU-PRO:

  • 任务:“MMLU-PRO”
  • 度量:准确率 (acc,none)
  • Shots:5-shot
  • num_choices:10
< > 在 GitHub 上更新