开放式 LLM 排行榜 v1
评估和比较 LLM 很难。我们的 RLHF 团队一年前意识到这一点,当时他们想重现和比较几种已发表模型的结果。这是一项几乎不可能完成的任务:论文或营销资料中的分数在没有可重现代码的情况下给出,有时令人怀疑,但在大多数情况下,只是使用优化的提示或评估设置来最大限度地提高模型的胜算。因此,他们决定创建一个地方,将参考模型在完全相同的设置中进行评估(相同的问题,以相同的顺序提出,等等),以收集完全可重现和可比的结果;这就是 开放式 LLM 排行榜 的诞生!
在一系列高度可见的模型发布之后,它成为了 ML 社区乃至更广泛社区中广泛使用的资源,在过去 10 个月中,超过 200 万个独立访问者访问了该榜单。
大约 30 万社区成员通过提交和讨论每月使用和协作该榜单,通常是为了
- 查找最先进的开源版本,因为排行榜提供了可重现的分数,将营销炒作与该领域实际进展区分开来。
- 评估他们的工作,无论是预训练还是微调,在公开场合将方法与现有的最佳模型进行比较,并获得公众认可。
在 2024 年 6 月,我们对其进行了存档,并用一个更新版本取代了它,但以下是你需要了解的有关该排行榜的所有相关信息!
任务
📈 我们使用 Eleuther AI 语言模型评估框架 在 6 个关键基准上评估了模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。
- AI2 推理挑战(25-shot) - 一组小学科学问题。
- HellaSwag(10-shot) - 一项常识推理测试,对人类来说很容易(~95%),但对 SOTA 模型来说很具有挑战性。
- MMLU(5-shot) - 一项测试,用于衡量文本模型的多任务准确性。该测试涵盖 57 个任务,包括初等数学、美国历史、计算机科学、法律等等。
- TruthfulQA(0-shot) - 一项测试,用于衡量模型再现在线常见谬误的倾向。注意:TruthfulQA 在技术上是一个 6-shot 任务,因为在框架中,即使在 0-shot 设置中,每个示例之前也会添加 6 个问答对。
- Winogrande(5-shot) - 一项大规模对抗性且难度较高的 Winograd 基准测试,用于常识推理。
- GSM8k(5-shot) - 用于衡量模型解决多步数学推理问题的能力的多样化小学数学文字题。
对于所有这些评估,分数越高越好。
我们选择这些基准是因为它们测试了各种领域中 0-shot 和 few-shot 设置的各种推理和一般知识。
结果
你可以找到
results
Hugging Face 数据集中的详细数值结果: https://huggingface.co/datasets/open-llm-leaderboard-old/results- 每个模型的
details
中模型的输入/输出的详细信息,你可以通过点击模型名称后的 📄 表情符号进行访问 requests
Hugging Face 数据集中的社区查询和运行状态: https://huggingface.co/datasets/open-llm-leaderboard-old/requests 如果模型名称包含“Flagged”,则表示它已被社区标记,可能应该忽略它!点击链接将把你重定向到有关该模型的讨论。
可重现性
要重现我们的结果,你可以运行以下命令,使用 此版本 的 Eleuther AI 框架
python main.py --model=hf-causal-experimental \
--model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
--tasks=<task_list> \
--num_fewshot=<n_few_shot> \
--batch_size=1 \
--output_path=<output_path>
注意:我们对所有模型在单个具有 8 个 H100 的节点上进行了评估,因此每个评估的全局批次大小为 8。如果你不使用并行化,请调整批次大小以适应。由于填充的原因,你可能会发现不同批次大小的结果略有不同。
任务和 few-shot 参数是
- ARC:25-shot,arc-challenge(
acc_norm
) - HellaSwag:10-shot,hellaswag(
acc_norm
) - TruthfulQA:0-shot,truthfulqa-mc(
mc2
) - MMLU:5-shot,hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions(所有结果
acc
的平均值) - Winogrande:5-shot,winogrande(
acc
) - GSM8k:5-shot,gsm8k(
acc
)关于基准分数的旁注 - 对于对数似然评估,我们选择随机基准
- 对于 GSM8K,我们选择在论文中在完整的 GSM8K 训练集上对 6B 模型微调 50 个 epoch 后获得的分数
博客
在排行榜的生命周期中,我们写了2篇博客,您可以在 这里 和 这里 找到。
< > 更新 在GitHub上