Leaderboards 文档

介绍

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

介绍

🏅 什么是 Leaderboards?

Leaderboards 是机器学习工件(最常见的是生成模型,但也包括嵌入、分类器等)的排名,排名取决于它们在相关模式下给定任务上的表现。

它们通常用于为特定用例找到最佳模型。

例如,对于大型语言模型,Open LLM Leaderboard 允许您找到最佳的英语基础预训练模型,它使用了一系列学术评估来考察语言理解、常识和数学;Chatbot Arena Leaderboard 则根据用户对聊天能力的投票,提供了最佳英语聊天模型的排名。

到目前为止,在 Hub 上,我们有针对文本、图像、视频和音频生成的 Leaderboards,包括至少 10 种自然(人类)语言的专用 Leaderboard,以及许多功能,如数学或代码。我们还有评估更通用方面的 Leaderboards,如能源性能或模型安全性。

一些特定的 Leaderboards 反映了通过基于人类的投票系统获得的人类表现,在该系统中,人们比较模型并为给定任务中更好的模型投票。这些 Spaces 被称为 arenas。

⚖️ 如何正确使用 Leaderboards

在使用 Leaderboard 时,有一些事情需要牢记。

1. 苹果与苹果比

就像在体育运动中一样,我们有体重类别来保持排名的公平性,在评估模型工件时,您希望比较相似的项目。

例如,在比较模型时,您希望它们是

  • 在相同的权重级别(参数数量):较大的模型通常比较小的模型具有更好的性能,但它们的运行和训练成本通常更高(在金钱、时间和能源方面)
  • 在相同的数学精度下:模型的精度越低,体积越小、速度越快,但这可能会影响性能
  • 在相同的类别中:预训练模型是良好的通用基础,而微调模型更专业,在特定任务上表现更好,合并的模型往往得分高于其实际性能。

2. 跨任务频谱比较

尽管优秀的通用机器学习模型正变得越来越普遍,但这并不意味着一个 LLM 擅长下棋,它就会输出好的诗歌。如果您想为您的用例选择正确的模型,您需要查看其在各种 Leaderboards 和任务中的得分和表现,然后再自行测试以确保它符合您的需求。

3. 注意评估限制,特别是对于模型

许多评估都很容易作弊,无论是意外还是有意:如果模型已经看过用于测试的数据,其性能将“人为地”偏高,并反映记忆而不是在该任务上的任何实际能力。这种机制称为污染。

对闭源模型的评估在一段时间后并不总是仍然准确:由于闭源模型位于 API 之后,因此无法知道模型如何变化以及随着时间的推移添加或删除了什么(与开源模型相反,开源模型提供相关信息)。因此,您不应假设在时间 t 对闭源模型的静态评估在一段时间后仍然有效。

< > 在 GitHub 上更新