Evaluate 文档
🤗 Evaluate 中的评估类型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
🤗 Evaluate 中的评估类型
🤗 Evaluate 库的目标是根据不同的目标、数据集和模型支持不同类型的评估。
以下是当前支持的评估类型,并附有每个类型的一些示例
指标
指标衡量模型在给定数据集上的性能。这通常基于现有参考(即一组参考),但也有 无参考指标,它们允许通过利用预训练模型(例如 GPT-2)来评估生成的文本。
指标示例包括
- 准确率:正确预测占总处理案例的比例。
- 精确匹配:输入预测字符串与参考完全匹配的速率。
- 平均交并比 (IoU):预测图像分割与真实值之间的重叠面积除以预测分割与真实值之间的并集面积。
指标通常用于跟踪模型在基准数据集上的性能,并报告诸如 机器翻译 和 图像分类 等任务的进展。
比较
比较对于在单个测试数据集上比较两个或多个模型的性能非常有用。
例如,McNemar 检验 是一种配对非参数统计假设检验,它比较两个模型的预测,旨在衡量模型的预测是否不同。它输出的 p 值范围从 0.0
到 1.0
,表示两个模型预测之间的差异,p 值越低表示差异越显著。
比较尚未在比较和报告模型性能时系统地使用,然而它们是超越简单比较排行榜分数并获得模型预测差异更多信息的有用工具。
测量
在 🤗 Evaluate 库中,测量是用于获取数据集和模型预测更多洞察的工具。
例如,对于数据集,计算数据集条目的平均词长及其分布情况可能很有用——这有助于为 Tokenizer 选择最大输入长度。
对于模型预测,计算使用不同模型(如 GPT-2 和 BERT)的模型预测的平均困惑度可能很有用,这可以在没有参考可用的情况下指示生成文本的质量。
🤗 Evaluate 库支持的所有三种评估类型旨在相互补充,并帮助我们的社区进行更细致和负责任的评估。
我们将在未来几个月继续添加更多类型的指标、测量和比较,并期待社区的参与(通过 PRs 和 issues)使该库尽可能广泛和包容!
< > 在 GitHub 上更新