常见问题
提交
问:您是否记录了提交模型的人?
答:是的,我们会在请求文件中存储有关谁提交了每个模型的信息。这有助于我们防止垃圾邮件并鼓励负责任的提交。用户对其提交负责,因为社区可以识别谁提交了每个模型。
问:我可以提交一个需要 trust_remote_code=True
的模型吗?
答:我们只接受已集成到稳定版本的 transformers
库中的模型,以确保在我们集群上执行的代码的安全性和稳定性。
问:支持类型为 X 的模型吗?
答:目前,提交仅限于包含在稳定版本的 transformers 库中的模型。
问:我可以使用聊天模板评估我的模型吗?
答:当然可以!提交模型时,可以选择是否使用聊天模板对其进行评估,该模板会为聊天模型自动激活。
问:如何跟踪我的模型提交状态?
答:您可以通过查看此处(https://huggingface.co/datasets/open-llm-leaderboard/requests)的请求文件或查看提交表单上方的队列来监控您的模型状态。
问:如果我的模型从所有队列中消失怎么办?
答:模型消失通常表示发生了错误。您可以在此处(https://huggingface.co/datasets/open-llm-leaderboard/requests)的请求数据集中找到您的模型并查看其状态。
问:是什么导致评估失败?
答:失败通常是由于提交问题引起的,例如损坏的文件或配置错误。请在提交之前查看“关于”选项卡中的步骤。有时,失败是由于我们这边出现的硬件或连接问题造成的。
问:如何报告评估失败?
答:请在社区部分(https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard/discussions)创建一个问题,并链接您的模型的请求文件以供进一步调查。如果错误在我们这边,我们会立即重新启动您的模型。
不要使用不同的名称重新上传您的模型,因为这不会解决问题。
结果
问:关于我的模型评估结果,有哪些信息可用?
答:对于每个模型,您可以访问
- 请求文件:评估状态。
- 内容数据集:包含所有已评估模型的信息的完整数据集。
- 详细信息数据集:分数和任务示例的全面细分。
问:为什么有些模型在排行榜中多次出现?
答:模型可能由于在不同的提交或精度设置(如 float16 和 4bit)下提交而多次出现。您可以通过单击主页面“选择要显示的列”部分下的“模型 sha”和“精度”按钮来查看。对于评估,精度有助于评估量化的影响。
具有相同精度和提交的重复项应予以报告。
问:什么是模型标记?
答:标记有助于报告在排行榜上表现不公平的模型。例如,在评估数据上训练的模型、未正确归属的模型副本等。
如果您的模型被错误地标记,您可以在此处(https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard/discussions)开启讨论并为您的情况辩护。
搜索模型
问:如何在排行榜中搜索模型?
答:按以下内容搜索
- 单个名称:
model_name
- 多个名称:用
;
分隔名称,例如model_name1;model_name2
- 许可证:以
Hub License:
为前缀,例如Hub License: MIT
- 组合:名称和许可证的任何顺序,例如
model_name; Hub License: cc-by-sa-4.0
。
编辑提交
问:如何更新或重命名我提交的模型?
答:要更新,请在使用新提交哈希重新提交之前,使用您的模型的确切名称打开一个问题,以将其从排行榜中删除。要重命名,请查看社区资源页面,并使用@Weyaxi 的工具请求更改,然后在讨论中链接拉取请求以供批准。
其他信息
问: “仅显示维护人员的选择” 按钮有什么作用?
答: 此按钮位于“隐藏模型”部分,它会过滤并显示来自经过精心挑选的可信和高质量模型提供商的模型列表。我们引入它是为了帮助用户轻松识别和选择顶级模型。当前的可信作者包括 EleutherAI、CohereForAI、MistralAI 等知名机构。
问: 如何查看每个评估的原始分数?
答: 排行榜默认显示归一化分数,以提供公平的比较。归一化会调整分数,使下限对应于随机基线的得分,确保更公平的平均值。要查看非归一化值,请使用“选择要显示的列”部分中的“原始”按钮。
问: 模型类别是如何区分的?
答: 类别定义旨在反映应用于每个模型的特定训练阶段和方法,确保比较既公平又有意义。以下是每个类别的细分:
- 预训练模型: 这些基础模型最初是在大型数据集上训练的,没有特定于任务的调整,作为进一步开发的通用基础。
- 持续预训练模型: 这些模型在初始预训练之外进行了额外的训练,以增强其功能,通常使用更专业的数据。
- 微调模型: 这些模型专门针对目标数据集进行了调整,针对特定任务进行了优化,提高了这些领域的性能。
- IFT/RLHF/聊天模型: 这些模型针对聊天机器人等交互式应用程序量身定制,使用指令微调或来自人类反馈的强化学习等方法进行训练,以便有效地处理对话上下文。
- 合并和更多合并: 这些模型结合了多个模型或方法,可以显示出更优异的测试结果,但并不总是适用于现实情况。
问: 排行榜的预期用途是什么?
答: 排行榜非常适合:
- 查看公开预训练模型的排名和得分。
- 尝试各种微调和量化技术。
- 比较特定模型在其类别中的性能。
问: 为什么没有封闭源代码模型?
答: 排行榜侧重于开源模型,以确保透明度、可重复性和公平性。封闭源代码模型可以随意更改其 API,因此很难保证评分的一致性和准确性。此外,我们会在我们的集群上重新运行所有评估,以维护一致的测试环境,这对于封闭源代码模型来说是不可能的。
问: 通过 Gradio API 访问排行榜时遇到问题?
答: 我们不支持通过 Gradio API 访问;但是,社区工具可能提供替代方法。
问: 我遇到了其他问题,请帮忙!
答: 请在讨论选项卡中打开一个问题,我们会尽力及时为您提供帮助。
< > 在 GitHub 上更新