如何在 Open LLM 排行榜上提交模型
此处添加的模型将在 🤗 集群上自动评估。请务必阅读常见问题解答和关于文档页面以获取更多信息!
提交模型前的第一步
1. 确保模型和分词器加载:
确保您可以使用 AutoClasses 加载您的模型和分词器
from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name", revision=revision)
model = AutoModel.from_pretrained("your model name", revision=revision)
tokenizer = AutoTokenizer.from_pretrained("your model name", revision=revision)
如果此步骤失败,请按照错误消息调试您的模型,然后再提交。您的模型可能上传不正确。
注意
- 确保您的模型是公开的!
- 您的模型应采用 Safetensors 格式。
- 如果您的模型需要
use_remote_code=True
,我们目前尚不支持此选项,但正在努力添加它。敬请关注!
2. 填写您的模型卡片:
当我们将有关模型的额外信息添加到排行榜时,它将自动从模型卡片中获取。
3. 选择正确的精度:
并非所有模型都能从 float16
正确转换为 bfloat16
,选择错误的精度有时会导致评估错误(因为在 fp16
中加载 bf16
模型有时会生成 NaN,具体取决于权重范围)。
- 注意:提交时,git 分支和标签将严格绑定到提交时存在的特定提交。这确保了修订版的一致性。
模型大小和精度限制:
我们的提交系统实施了两级检查,以确定模型是否可以自动评估
高精度模型的绝对大小限制
- 适用于:
float16
和bfloat16
精度 - 限制:1000 亿个参数
- 适用于:
精度调整的大小限制
- 最大基本大小:1400 亿个参数
- 按精度因子调整
8bit
:2 倍(最大 2800 亿)4bit
:4 倍(最大 5600 亿)GPTQ
:根据量化位数变化
超过这些限制的模型无法自动评估。请考虑对较大的模型使用较低的精度/在 Open LLM 排行榜上发起讨论。如果社区有足够的兴趣,我们将进行手动评估
4. 聊天模板切换:
提交模型时,您可以选择是否使用聊天模板进行评估。对于聊天模型,聊天模板切换会自动激活。
模型类型
- 🟢 预训练模型:在给定的文本语料库上使用掩码建模训练的新基础模型。
- 🟩 持续预训练模型:在进一步的语料库(可能包括 IFT/聊天数据)上使用掩码建模训练的新基础模型。
- 🔶 基于特定领域数据集微调的模型: 在更多数据上微调的预训练模型。
- 💬 对话模型 (RLHF、DPO、IFT,…): 使用 IFT(任务指令数据集)、RLHF、DPO(通过添加策略更改模型损失)等进行对话式微调。
- 🤝 基础模型合并与 MoErges 模型: Merges 或 MoErges,指在没有额外微调的情况下合并或融合的模型。