排行榜文档
引言
并获得增强的文档体验
开始使用
简介
🏅 什么是排行榜?
排行榜是根据机器学习产物(最常见的是生成模型,但也包括嵌入、分类器等)在相关模态的给定任务上的表现进行的排名。
它们通常被用来为特定用例寻找最佳模型。
例如,对于大语言模型,开放大语言模型排行榜可以让你通过一系列考察语言理解、常识知识和数学能力的学术评估,找到最好的英语预训练基础模型。而聊天机器人竞技场排行榜则根据用户对聊天能力的投票,提供了最佳英语聊天模型的排名。
到目前为止,在社区(Hub)上,我们有针对文本、图像、视频和音频生成的排行榜,包括针对至少10种自然(人类)语言的专业排行榜,以及一系列针对数学或代码等能力的排行榜。我们还有评估能源效率或模型安全性等更广泛方面的排行榜。
一些特定的排行榜反映了通过基于人类投票的系统获得的人类评价表现,人们比较模型并就给定任务投票选出更好的一个。这些空间被称为竞技场(arenas)。
⚖️ 如何正确使用排行榜
在使用排行榜时,需要注意一些事项。
1. 同类比较
就像在体育比赛中,我们有重量级来保持排名的公平性一样,在评估模型产物时,你也应该比较相似的项目。
例如,在比较模型时,你希望它们:
- 处于同一重量级(参数数量):较大的模型通常比小模型性能更好,但它们通常需要更多的运行和训练成本(在金钱、时间和能源方面)
- 具有相同的数学精度:模型的精度越低,模型越小越快,但这可能会影响性能
- 属于同一类别:预训练模型是很好的通用基础模型,而微调模型更专业,在特定任务上表现更好,合并后的模型的得分往往高于其实际表现。
2. 跨任务谱系比较
尽管优秀的通用机器学习模型越来越普遍,但一个大语言模型擅长下棋并不意味着它就能写出好诗。如果你想为你的用例选择正确的模型,你需要查看它在一系列排行榜和任务中的得分和表现,然后再亲自测试以确保它符合你的需求。
3. 注意评估的局限性,尤其是对于模型
许多评估很容易被有意或无意地“作弊”:如果一个模型已经见过用于测试的数据,它的表现会“人为地”提高,这反映的是记忆能力而非任务上的实际能力。这种机制被称为污染(contamination)。
对闭源模型的评估在一段时间后可能不再准确:由于闭源模型位于API之后,无法知道模型随时间如何变化,添加或删除了什么(与开源模型相反,开源模型的相关信息是可用的)。因此,你不应该假设一个闭源模型在t时刻的静态评估在一段时间后仍然有效。
< > 在 GitHub 上更新