常见问题

提交

问：你们会记录模型提交者的信息吗？

答：是的，我们会将每个模型的提交者用户信息存储在此处的请求文件中。这有助于我们防止垃圾提交并鼓励负责任的提交行为。用户需要对自己的提交负责，因为社区可以识别出每个模型的提交者。

问：我可以提交需要设置 `trust_remote_code=True` 的模型吗？

答：我们只接受已集成到 `transformers` 库稳定版本的模型，以确保在我们集群上执行的代码的安全性和稳定性。

问：支持 X 类型的模型吗？

答：目前，提交仅限于已包含在 transformers 库稳定版本中的模型。

问：我可以用聊天模板来评估我的模型吗？

答：当然可以！提交模型时，您可以选择是否使用聊天模板进行评估，该功能对聊天模型会自动激活。

问：如何跟踪我的模型提交状态？

答：您可以通过查看此处的请求文件或查看提交表单上方的队列来监控您的模型状态。

问：如果我的模型从所有队列中消失了怎么办？

答：模型消失通常表示评估失败。您可以在此处的请求数据集中找到您的模型并检查其状态。

问：导致评估失败的原因是什么？

答：失败通常源于提交问题，例如文件损坏或配置错误。请在提交前查阅“关于”选项卡中的步骤。偶尔，失败也可能是由于我们这边的硬件或连接问题造成的。

问：我该如何报告评估失败？

答：请在社区版块中创建一个 issue，并附上您模型的请求文件链接，以便我们进一步调查。如果错误在我们这边，我们会立即重新启动您的模型评估。

请勿以不同名称重新上传您的模型，因为这无法解决问题。

结果

问：关于我的模型评估结果，有哪些可用信息？

答：对于每个模型，您可以访问：

请求文件：评估的状态。
内容数据集： 包含所有已评估模型信息的完整数据集。可在此处查看。
详情数据集：分数的详细分解和任务示例。您可以在此处查看所有的详情数据集。

问：为什么有些模型在排行榜上多次出现？

答：模型可能由于在不同的 commit 或精度设置（如 `float16` 和 `4bit`）下提交而多次出现。您可以通过点击主页上“列可见性”部分下的 `精度` 按钮来查看。对于评估，精度有助于评估量化的影响。

如果发现精度和 commit 完全相同的重复项，请报告。

问：什么是模型标记 (flagging)？

答：标记功能有助于报告在排行榜上表现不公平的模型。例如，在评估数据上训练过的模型、未经适当署名的其他模型的副本等。

如果您的模型被错误标记，您可以在此处发起讨论为自己辩护。

搜索模型

问：如何在排行榜中搜索模型？

答：搜索栏提供了强大的筛选功能，并包含多项高级特性：

多词条搜索

组合搜索：使用分号（;）来组合多个独立的搜索词条。
结果叠加：分号后的每个词条会将结果添加到前一个搜索的结果中，创建结果的并集而非交集筛选。

示例：`llama; 7b` 会找到包含“llama”或包含“7b”的模型。

特定字段搜索

使用 `@` 前缀来指定特定字段：

`@architecture:` - 按模型架构搜索。
`@license:` - 按许可证类型筛选。
`@precision:` - 按模型精度筛选。

示例：`@architecture:llama @license:apache` 会找到具有 Apache 许可证的 Llama 模型。

支持正则表达式

高级模式匹配：支持正则表达式，以实现灵活的搜索条件。
自动检测：当使用特殊正则表达式字符时，会自动激活正则模式。

示例：`llama-2-(7|13|70)b` 会匹配 `llama-2-7b`、`llama-2-13b` 和 `llama-2-70b`。

组合搜索

组合并叠加所有功能以获得精确结果：

示例：`meta @architecture:llama; 7b @license:apache` 将会找到：

包含“meta”且架构为 Llama 的模型，或
包含“7b”且具有 Apache 许可证的模型。

实时结果

动态更新：搜索是实时执行的，并带有防抖动功能以保证流畅性能。
高亮显示：结果会在表格中进行视觉强调，以便于识别。

编辑提交

问：如何更新或重命名我提交的模型？

答：要更新，请在 issue 中提供您模型的准确名称以从排行榜中移除，然后使用新的 commit 哈希重新提交。要重命名，请查看社区资源页面，并使用 @Weyaxi 的工具请求更改，然后在讨论中链接该 pull request 以获得批准。

附加信息

问：“仅限官方提供商”按钮有什么作用？

答：此按钮用于筛选和显示来自一份精选的可信赖和高质量模型提供商列表中的模型。我们引入此功能是为了帮助用户轻松识别和选择顶级模型。目前的可信赖作者名单包括 EleutherAI、CohereForAI、MistralAI 等众多知名机构。该数据集可在此处查看。

问：如何查看每次评估的原始分数？

答：排行榜默认显示归一化分数以提供公平的比较。归一化会调整分数，使下限对应于随机基线的分数，从而确保更公平的平均值。要查看未归一化的值，请前往“表格选项”中的“分数显示”，然后点击“原始”。

问：模型类别是如何区分的？

答：类别的定义旨在反映应用于每个模型的具体训练阶段和方法，以确保比较既公平又有意义。以下是每个类别的细分：

预训练模型： 这些基础模型最初在大型数据集上进行训练，没有针对特定任务进行调整，可作为进一步开发的通用基础。
持续预训练模型： 这些模型在初步预训练之后会进行额外的训练以增强其能力，通常使用更专业的数据。
微调模型： 这些模型在特定数据集上进行专门调整，针对特定任务进行优化，从而在这些领域提高性能。
聊天模型： 专为聊天机器人等交互式应用量身定制，这些模型经过训练，能有效处理对话上下文。
合并模型： 结合多个模型或方法，这些模型可能在测试中表现出色，但并不总适用于现实世界的情况。

问：排行榜的预期用途是什么？

答：该排行榜非常适合用于：

查看开放预训练模型的排名和分数。
试验各种微调和量化技术。
比较特定模型在其类别内的性能。

问：为什么你们不收录闭源模型？

答：排行榜专注于开源模型，以确保透明度、可复现性和公平性。闭源模型的 API 可能会不可预测地改变，使得难以保证评分的一致性和准确性。此外，我们在自己的集群上重新运行所有评估，以维持统一的测试环境，这对于闭源模型是无法做到的。

问：我还有其他问题，求助！

答：请在讨论区开一个 issue，我们会尽力及时帮助您。

< > 在 GitHub 上更新