🤗 Evaluate

一个用于轻松评估机器学习模型和数据集的库。

只需一行代码，您就可以访问数十种适用于不同领域（NLP、计算机视觉、强化学习等）的评估方法。无论是在您的本地机器上还是在分布式训练环境中，您都可以以一致且可复现的方式评估您的模型！

请访问 🤗 Evaluate 组织页面，查看可用的完整指标列表。每个指标都有一个专属的 Space，其中包含关于如何使用该指标的交互式演示，以及一个详细说明指标局限性和用法的文档卡片。

提示： 对于更近期的评估方法，例如评估大语言模型（LLM），我们推荐使用我们更新更积极、维护更活跃的库 LightEval。

学习基础知识，熟悉使用 🤗 Evaluate进行加载、计算和保存。如果您是第一次使用 🤗 Evaluate，请从这里开始！

帮助您实现特定目标的实用指南。请查看这些指南，学习如何使用 🤗 Evaluate 解决现实世界的问题。

高层次的解释，帮助您更好地理解重要主题，例如评估模型或数据集时的注意事项，以及指标、测量和比较之间的区别。

关于 🤗 Evaluate 类和方法如何工作的技术描述。