排行榜文档

排行榜与评估

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

排行榜与评估

Hub 包含机器学习模型(包括大语言模型 LLM、聊天机器人等)的排行榜和评估结果。排行榜分为三种类型:

  • 来自 GPQA、MMLU-Pro 等官方基准数据集或其他学术论文中所用数据集的评估结果 (Eval Results)。当结果发布在模型仓库中时,分数将显示在模型页面上。
  • 社区管理排行榜 (Community Managed Leaderboards) 运行在 Spaces 上,并由社区针对特定用例进行管理。
  • Open LLM Leaderboard 是由 Hugging Face 团队策划的一个项目,旨在评估和排列开源 LLM 及聊天机器人的排名,并提供可复现的分数,以将营销噱头与该领域的实际进展区分开来。

Eval Results

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.