排行榜文档

常见问题

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

常见问题

提交

问:你们是否跟踪谁提交了模型?

答:是的,我们在此处的请求文件中存储了有关哪个用户提交了每个模型的信息。这有助于我们防止垃圾邮件并鼓励负责任的提交。用户对其提交的内容负责,因为社区可以识别出谁提交了每个模型。

问:我可以提交需要 trust_remote_code=True 的模型吗?

答:我们只接受已集成到 transformers 库稳定版本的模型,以确保在我们集群上执行的代码的安全性和稳定性。

问:是否支持 X 类型模型?

答:目前,提交仅限于 transformers 库稳定版本中包含的模型。

问:我可以使用聊天模板评估我的模型吗?

答:当然!提交模型时,您可以选择是否使用聊天模板对其进行评估,聊天模板会自动为聊天模型激活。

问:如何跟踪我的模型提交状态?

答:您可以通过查看此处的请求文件或查看提交表单上方的队列来监控模型的状态。

问:如果我的模型从所有队列中消失了会发生什么?

答:模型消失通常表示失败。您可以在此处的请求数据集中找到您的模型并查看其状态。

问:什么原因导致评估失败?

答:失败通常源于提交问题,例如文件损坏或配置错误。请在提交前查看“关于”选项卡中的步骤。偶尔,失败是由于我们这边的硬件或连接问题造成的。

问:如何报告评估失败?

答:请在社区版块中创建一个 issue,链接您的模型请求文件以便进一步调查。如果错误在我们这边,我们将立即重新启动您的模型。

请勿使用不同的名称重新上传您的模型,因为这不会解决问题。

结果

问:关于我的模型评估结果,有哪些信息可用?

答:对于每个模型,您可以访问

  • 请求文件:评估状态。
  • Contents 数据集:包含有关所有已评估模型的完整数据集。在此处可用
  • Details 数据集:分数和任务示例的全面细分。您可以在此处查看所有 Details 数据集。

问:为什么有些模型在排行榜中多次出现?

答:模型可能会多次出现,原因是使用了不同的提交版本或精度设置,例如 float164bit。您可以通过单击主页上“列可见性”部分下的“精度”按钮来检查这一点。对于评估,精度有助于评估量化的影响。

应报告具有相同精度和提交版本的重复项。

问:什么是模型标记?

答:标记有助于报告在排行榜上表现不公平的模型。例如,在评估数据上训练的模型,未正确归属的其他模型的副本等。

如果您的模型被错误标记,您可以在此处打开讨论并为您的案例辩护。

搜索模型

问:如何在排行榜中搜索模型?

答:搜索栏提供了强大的过滤功能,具有以下几个高级功能

多词搜索

  • 组合搜索:使用分号 (;) 组合多个独立的搜索词。
  • 堆叠结果:分号后的每个词都会将结果添加到之前的搜索中,从而创建结果的并集,而不是按交集过滤。

示例:llama; 7b 将查找包含“llama”的模型或包含“7b”的模型。

特殊字段搜索

使用 @ 前缀来定位特定字段

  • @architecture: - 按模型架构搜索。
  • @license: - 按许可证类型过滤。
  • @precision: - 按模型精度过滤。

示例:@architecture:llama @license:apache 将查找具有 Apache 许可证的 Llama 模型。

正则表达式支持

  • 高级模式匹配:支持正则表达式以实现灵活的搜索条件。
  • 自动检测:当使用特殊正则表达式字符时,会自动激活正则表达式模式。

示例:llama-2-(7|13|70)b 匹配 llama-2-7bllama-2-13bllama-2-70b

组合搜索

  • 组合和堆叠所有功能以获得精确的结果

示例:meta @architecture:llama; 7b @license:apache 将查找

  • 包含“meta”且具有 Llama 架构的模型,或
  • 包含“7b”且具有 Apache 许可证的模型。

实时结果

  • 动态更新:搜索实时执行,并带有防抖功能,以实现流畅的性能。
  • 高亮显示:结果在表格中以视觉方式强调,以便于识别。

编辑提交

问:如何更新或重命名我提交的模型?

答:要更新,请使用模型的确切名称打开一个 issue,以便从排行榜中删除,然后再使用新的提交哈希重新提交。对于重命名,请查看社区资源页面,并使用 @Weyaxi 的工具请求更改,然后在讨论中链接 pull request 以获得批准。

其他信息

问:“仅官方提供商”按钮有什么作用?

答:此按钮过滤并显示来自精选的受信任和高质量模型提供商列表中的模型。我们引入它是为了帮助用户轻松识别和选择顶级模型。当前受信任的作者集包括 EleutherAI、CohereForAI、MistralAI 等知名机构。数据集在此处可用

问:如何查看每次评估的原始分数?

答:排行榜默认显示归一化分数,以提供公平的比较。归一化调整分数,使下限对应于随机基线的得分,从而确保更公平的平均值。要查看非归一化值,请转到“表格选项”、“分数显示”,然后单击“原始”。

问:模型类别如何区分?

答:类别的定义是为了反映应用于每个模型的特定训练阶段和方法,确保比较既公平又有意义。以下是每个类别的细分

  • 预训练模型: 这些基础模型最初在大型数据集上进行训练,而没有特定于任务的微调,作为进一步开发的多功能基础。
  • 持续预训练模型: 这些模型在初始预训练之外进行额外的训练以增强其能力,通常使用更专业的数据。
  • 微调模型: 这些模型在目标数据集上进行专门调整,针对特定任务进行优化,从而提高这些领域的性能。
  • 聊天模型: 这些模型专为聊天机器人等交互式应用而定制,经过训练可以有效地处理对话上下文。
  • 合并模型: 结合了多个模型或方法,这些模型可以显示出色的测试结果,但并非总是适用于实际情况。

问:排行榜的预期用途是什么?

答:排行榜非常适合

  1. 查看开放预训练模型的排名和分数。
  2. 尝试各种微调和量化技术。
  3. 比较特定类别中模型的性能。

问:为什么你们没有闭源模型?

答:排行榜侧重于开源模型,以确保透明度、可重复性和公平性。闭源模型可能会不可预测地更改其 API,从而难以保证一致和准确的评分。此外,我们在集群上重新运行所有评估以保持统一的测试环境,这对于闭源模型是不可能的。

问:我还有其他问题,请帮助!

答:请在讨论选项卡中打开一个 issue,我们将尽力及时帮助您。

< > 在 GitHub 上更新