排行榜文档

如何在 Open LLM 排行榜上提交模型

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

如何在 Open LLM 排行榜上提交模型

此处添加的模型将在 🤗 集群上自动评估。请务必阅读常见问题解答和关于文档页面以获取更多信息!

提交模型前的第一步

1. 确保模型和分词器加载:

确保您可以使用 AutoClasses 加载您的模型和分词器

from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name", revision=revision)
model = AutoModel.from_pretrained("your model name", revision=revision)
tokenizer = AutoTokenizer.from_pretrained("your model name", revision=revision)

如果此步骤失败,请按照错误消息调试您的模型,然后再提交。您的模型可能上传不正确。

注意

  • 确保您的模型是公开的!
  • 您的模型应采用 Safetensors 格式。
  • 如果您的模型需要 use_remote_code=True,我们目前尚不支持此选项,但正在努力添加它。敬请关注!

2. 填写您的模型卡片:

当我们将有关模型的额外信息添加到排行榜时,它将自动从模型卡片中获取。

3. 选择正确的精度:

并非所有模型都能从 float16 正确转换为 bfloat16,选择错误的精度有时会导致评估错误(因为在 fp16 中加载 bf16 模型有时会生成 NaN,具体取决于权重范围)。

  • 注意:提交时,git 分支和标签将严格绑定到提交时存在的特定提交。这确保了修订版的一致性。

模型大小和精度限制:

我们的提交系统实施了两级检查,以确定模型是否可以自动评估

  1. 高精度模型的绝对大小限制

    • 适用于:float16bfloat16 精度
    • 限制:1000 亿个参数
  2. 精度调整的大小限制

    • 最大基本大小:1400 亿个参数
    • 按精度因子调整
      • 8bit:2 倍(最大 2800 亿)
      • 4bit:4 倍(最大 5600 亿)
      • GPTQ:根据量化位数变化

超过这些限制的模型无法自动评估。请考虑对较大的模型使用较低的精度/在 Open LLM 排行榜上发起讨论。如果社区有足够的兴趣,我们将进行手动评估

4. 聊天模板切换:

提交模型时,您可以选择是否使用聊天模板进行评估。对于聊天模型,聊天模板切换会自动激活。

模型类型

  • 🟢 预训练模型:在给定的文本语料库上使用掩码建模训练的新基础模型。
  • 🟩 持续预训练模型:在进一步的语料库(可能包括 IFT/聊天数据)上使用掩码建模训练的新基础模型。

  • 🔶 基于特定领域数据集微调的模型: 在更多数据上微调的预训练模型。
  • 💬 对话模型 (RLHF、DPO、IFT,…): 使用 IFT(任务指令数据集)、RLHF、DPO(通过添加策略更改模型损失)等进行对话式微调。
  • 🤝 基础模型合并与 MoErges 模型: Merges 或 MoErges,指在没有额外微调的情况下合并或融合的模型。
< > GitHub 更新