🤗 Evaluate 中的评估类型
🤗 Evaluate 库的目标是支持不同类型的评估,具体取决于不同的目标、数据集和模型。
以下是当前支持的评估类型,以及每个类型的几个示例
指标
指标衡量模型在给定数据集上的性能。这通常基于现有的真实情况(即一组参考),但也存在 *无参考指标*,允许通过利用预训练模型(例如 [GPT-2](https://huggingface.co/gpt2))来评估生成的文本。指标示例包括
- 准确率:在处理的所有案例中,正确预测的比例。
- 完全匹配:输入预测字符串与其参考完全匹配的比率。
- 平均交并比 (IoUO):预测的图像分割与真实情况之间的重叠区域除以预测的分割与真实情况之间的并集区域。
指标通常用于跟踪模型在基准数据集上的性能,以及报告机器翻译和图像分类等任务的进展。
比较
比较可用于比较两个或多个模型在单个测试数据集上的性能。
例如,麦克尼玛检验 是一种配对非参数统计假设检验,它采用两个模型的预测并进行比较,旨在衡量模型的预测是否出现差异。它输出的 p 值(范围从 0.0
到 1.0
)表示两个模型预测之间的差异,p 值越低表示差异越显著。
比较尚未在比较和报告模型性能时得到系统性使用,但它们是超越简单比较排行榜分数并获取有关模型预测差异方式的更多信息的实用工具。
测量
在 🤗 Evaluate 库中,测量是用于深入了解数据集和模型预测的工具。
例如,在数据集的情况下,计算数据集条目中的 平均词长 以及它的分布很有用——这在为 分词器 选择最大输入长度时很有帮助。
在模型预测的情况下,计算使用不同模型(如 [GPT-2](https://huggingface.co/gpt2) 和 [BERT](https://huggingface.co/bert-base-uncased))的模型预测的平均 困惑度 会很有帮助,这可以表明在没有参考的情况下生成的文本的质量。
🤗 Evaluate 库支持的所有三种评估类型都旨在相互补充,并帮助我们的社区进行更有意识和负责任的评估。