排行榜文档

Open LLM 排行榜 v1

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始

Open LLM 排行榜 v1

评估和比较 LLM 很困难。我们的 RLHF 团队在一年前意识到这一点,当时他们想要复现和比较几个已发布模型的结果。这几乎是不可能的任务:论文或营销发布中的分数没有提供任何可复现的代码,有时令人怀疑,但在大多数情况下,只是使用优化的提示或评估设置来为模型提供最佳机会。因此,他们决定创建一个地方,在完全相同的设置(相同的问题,以相同的顺序提问等)下评估参考模型,以收集完全可复现和可比较的结果;这就是 Open LLM 排行榜 的诞生方式!

在一系列备受瞩目的模型发布之后,它成为机器学习社区及其他领域广泛使用的资源,在过去 10 个月中被超过 200 万独立用户访问。

每月约有 30 万社区成员通过提交和讨论使用它并进行协作,通常是为了

  • 查找最先进的开源版本,因为排行榜提供可复现的分数,将营销噱头与该领域的实际进展区分开来。
  • 评估他们的工作,无论是预训练还是微调,公开比较方法并与现有最佳模型进行比较,并获得公众认可。

在 2024 年 6 月,我们将其存档,并由更新的版本取代,但在下面,您将找到有关它的所有相关信息!

任务

📈 我们使用 Eleuther AI 语言模型评估工具包 ,一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型,在 6 个关键基准上评估了模型。

  • AI2 推理挑战 (25-shot) - 一组小学科学问题。
  • HellaSwag (10-shot) - 一项常识推理测试,对人类来说很容易(约 95%),但对 SOTA 模型来说具有挑战性。
  • MMLU (5-shot) - 一个测试,用于衡量文本模型的多任务准确性。该测试涵盖 57 个任务,包括基础数学、美国历史、计算机科学、法律等。
  • TruthfulQA (0-shot) - 一个测试,用于衡量模型再现在线常见虚假信息的倾向。注意:TruthfulQA 在工具包中技术上是一个 6-shot 任务,因为即使在 0-shot 设置中,每个示例都预先添加了 6 对问答。
  • Winogrande (5-shot) - 一个大规模的对抗性和困难的 Winograd 基准,用于常识推理。
  • GSM8k (5-shot) - 各种小学数学应用题,用于衡量模型解决多步骤数学推理问题的能力。

对于所有这些评估,分数越高越好。

我们选择这些基准,因为它们在 0-shot 和 few-shot 设置中测试了各个领域中各种推理和通用知识。

结果

您可以找到

可复现性

要复现我们的结果,您可以运行以下命令,使用 此版本 的 Eleuther AI 工具包

python main.py --model=hf-causal-experimental \
    --model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
    --tasks=<task_list> \
    --num_fewshot=<n_few_shot> \
    --batch_size=1 \
    --output_path=<output_path>

注意: 我们在一台包含 8 个 H100 的单节点上评估了所有模型,因此每次评估的全局批次大小为 8。如果您不使用并行性,请调整您的批次大小以适应。由于填充,您可以预期不同批次大小的结果会略有不同。

任务和 few-shot 参数是

  • ARC:25-shot,arc-challenge (acc_norm)
  • HellaSwag:10-shot,hellaswag (acc_norm)
  • TruthfulQA:0-shot,truthfulqa-mc (mc2)
  • MMLU:5-shot,hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有结果的平均值 acc)
  • Winogrande:5-shot,winogrande (acc)
  • GSM8k:5-shot,gsm8k (acc) 关于基线分数的附注
  • 对于对数似然评估,我们选择随机基线
  • 对于 GSM8K,我们选择在论文中获得的,在完整的 GSM8K 训练集上对 6B 模型进行 50 个 epoch 微调后的分数

博客

在排行榜的生命周期中,我们撰写了 2 篇博客,您可以在这里这里找到

< > 在 GitHub 上更新