介绍

🏅 什么是 Leaderboards？

Leaderboards 是机器学习工件（最常见的是生成模型，但也包括嵌入、分类器等）的排名，排名取决于它们在相关模式下给定任务上的表现。

它们通常用于为特定用例找到最佳模型。

例如，对于大型语言模型，Open LLM Leaderboard 允许您找到最佳的英语基础预训练模型，它使用了一系列学术评估来考察语言理解、常识和数学；Chatbot Arena Leaderboard 则根据用户对聊天能力的投票，提供了最佳英语聊天模型的排名。

到目前为止，在 Hub 上，我们有针对文本、图像、视频和音频生成的 Leaderboards，包括至少 10 种自然（人类）语言的专用 Leaderboard，以及许多功能，如数学或代码。我们还有评估更通用方面的 Leaderboards，如能源性能或模型安全性。

一些特定的 Leaderboards 反映了通过基于人类的投票系统获得的人类表现，在该系统中，人们比较模型并为给定任务中更好的模型投票。这些 Spaces 被称为 arenas。

在使用 Leaderboard 时，有一些事情需要牢记。

就像在体育运动中一样，我们有体重类别来保持排名的公平性，在评估模型工件时，您希望比较相似的项目。

例如，在比较模型时，您希望它们是

尽管优秀的通用机器学习模型正变得越来越普遍，但这并不意味着一个 LLM 擅长下棋，它就会输出好的诗歌。如果您想为您的用例选择正确的模型，您需要查看其在各种 Leaderboards 和任务中的得分和表现，然后再自行测试以确保它符合您的需求。

许多评估都很容易作弊，无论是意外还是有意：如果模型已经看过用于测试的数据，其性能将“人为地”偏高，并反映记忆而不是在该任务上的任何实际能力。这种机制称为污染。

对闭源模型的评估在一段时间后并不总是仍然准确：由于闭源模型位于 API 之后，因此无法知道模型如何变化以及随着时间的推移添加或删除了什么（与开源模型相反，开源模型提供相关信息）。因此，您不应假设在时间 t 对闭源模型的静态评估在一段时间后仍然有效。