🤗 Evaluate 中的评估类型

🤗 Evaluate 库的目标是支持不同类型的评估，具体取决于不同的目标、数据集和模型。

以下是当前支持的评估类型，每种类型都提供了一些示例

指标

指标衡量模型在给定数据集上的性能。这通常基于现有的真值（即一组参考），但也存在*无参考指标*，允许通过利用预训练模型（如 GPT-2）来评估生成的文本。

指标示例包括

指标通常用于跟踪模型在基准数据集上的性能，并报告在机器翻译和图像分类等任务上的进展。

比较可用于比较两个或多个模型在单个测试数据集上的性能。

例如，McNemar 检验是一种配对非参数统计假设检验，它采用两个模型的预测并进行比较，旨在衡量模型的预测是否发散。它输出的 p 值范围从 0.0 到 1.0，表示两个模型预测之间的差异，p 值越低表示差异越显着。

在比较和报告模型性能时，比较尚未得到系统地使用，但它们是超越简单地比较排行榜分数并获得有关模型预测差异方式的更多信息的有用工具。

在 🤗 Evaluate 库中，测量是用于深入了解数据集和模型预测的工具。

例如，对于数据集，计算数据集条目的平均词长及其分布可能很有用——这有助于在为 Tokenizer 选择最大输入长度时提供帮助。

在模型预测的情况下，计算使用不同模型（如 GPT-2 和 BERT）的模型预测的平均困惑度可能有所帮助，这可以在没有参考的情况下指示生成文本的质量。

🤗 Evaluate 库支持的所有三种评估类型都旨在相互补充，并帮助我们的社区进行更周到和负责任的评估。

我们将在未来几个月继续添加更多类型的指标、测量和比较，并依靠社区的参与（通过 PR 和 issue）使该库尽可能广泛和包容！