开放大语言模型排行榜 v1

评估和比较大语言模型（LLM）非常困难。一年前，我们的 RLHF 团队在想要复现和比较几个已发布模型的结果时就意识到了这一点。这几乎是一项不可能完成的任务：论文或市场宣传稿中给出的分数没有任何可复现的代码，有时结果存疑，但大多数情况下，只是使用了优化的提示词或评估设置来给模型创造最佳表现机会。因此，他们决定创建一个平台，在这里，参考模型将在完全相同的设置下（同样的问题，按同样的顺序提问等）进行评估，以收集完全可复现和可比较的结果；开放大语言模型排行榜就这样诞生了！

在一系列备受瞩目的模型发布之后，它成为了机器学习社区内外广泛使用的资源，在过去 10 个月里，吸引了超过 200 万独立访客。

大约有 30 万社区成员每月通过提交和讨论的方式使用它并进行协作，通常是为了：

找到最先进的开源模型，因为排行榜提供了可复现的分数，将市场宣传的噱头与该领域的实际进展区分开来。
评估自己的工作，无论是预训练还是微调，公开地与现有最佳模型进行比较，并获得公众认可。

在 2024 年 6 月，我们将其存档，并由一个新版本取代，但下面你将找到所有相关信息！

任务

📈 我们使用了 Eleuther AI 语言模型评估框架，在一个统一的框架下，对 6 个关键基准测试中的模型进行了评估，该框架可用于在大量不同的评估任务上测试生成式语言模型。

AI2 推理挑战赛 (25-shot) - 一系列小学科学问题。
HellaSwag (10-shot) - 一项常识推理测试，对人类来说很简单（约 95%），但对最先进的模型来说具有挑战性。
MMLU (5-shot) - 一项衡量文本模型多任务准确性的测试。该测试涵盖 57 项任务，包括初等数学、美国历史、计算机科学、法律等。
TruthfulQA (0-shot) - 一项衡量模型复述网上常见谬误倾向的测试。注意：在评估框架中，TruthfulQA 技术上是一个 6-shot 任务，因为即使在 0-shot 设置下，每个示例前都会附加 6 对问答。
Winogrande (5-shot) - 一个大规模的、具有对抗性和难度的 Winograd 基准测试，用于常识推理。
GSM8k (5-shot) - 多样化的小学数学应用题，用于衡量模型解决多步数学推理问题的能力。

对于所有这些评估，分数越高越好。

我们选择这些基准是因为它们在 0-shot 和 few-shot 设置下，测试了广泛领域内的各种推理和通用知识。

结果

您可以找到

Hugging Face 的 results 数据集中的详细数值结果：https://huggingface.co/datasets/open-llm-leaderboard-old/results
每个模型输入/输出的详细信息，可通过点击模型名称后的 📄 表情符号访问
Hugging Face 的 requests 数据集中的社区查询和运行状态：https://huggingface.co/datasets/open-llm-leaderboard-old/requests 如果一个模型的名称包含“Flagged”，这表示它已被社区标记，可能应该忽略！点击链接将重定向到关于该模型的讨论区。

可复现性

要复现我们的结果，您可以使用此版本的 Eleuther AI Harness 运行以下命令

python main.py --model=hf-causal-experimental \
    --model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
    --tasks=<task_list> \
    --num_fewshot=<n_few_shot> \
    --batch_size=1 \
    --output_path=<output_path>

注意： 我们在由 8 个 H100 组成的单个节点上评估了所有模型，因此每次评估的全局批处理大小为 8。如果您不使用并行处理，请调整您的批处理大小以适应。由于填充（padding）的原因，不同批处理大小的结果可能会有轻微差异。

任务和 few shots 参数如下：

ARC: 25-shot, arc-challenge (acc_norm)
HellaSwag: 10-shot, hellaswag (acc_norm)
TruthfulQA: 0-shot, truthfulqa-mc (mc2)
MMLU: 5-shot, hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有结果的平均值 acc)
Winogrande: 5-shot, winogrande (acc)
GSM8k: 5-shot, gsm8k (acc) 关于基准分数的旁注
对于对数似然评估，我们选择随机基线
对于 GSM8K，我们选择论文中在完整的 GSM8K 训练集上对一个 6B 模型进行 50 个 epoch 微调后获得的分数

博客

在排行榜的生命周期中，我们写了两篇博客，您可以在这里和这里找到它们

< > 在 GitHub 上更新