Lighteval 文档

指标列表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

指标列表

多项选择任务的自动指标

这些指标使用不同可能目标(target)的对数似然(log-likelihood)。

  • loglikelihood_acc: 具有最佳对数概率(logprob)的选项是正确选项的实例比例 - 对于选项只包含单个词元(token)的任务,也存在一个更快的版本 (loglikelihood_acc_single_token)。
  • loglikelihood_acc_norm: 具有最佳对数概率(经序列长度归一化)的选项是正确选项的实例比例 - 对于选项只包含单个词元的任务,也存在一个更快的版本 (loglikelihood_acc_norm_single_token)。
  • loglikelihood_acc_norm_nospace: 具有最佳对数概率(经序列长度归一化)的选项是正确选项的实例比例,忽略第一个空格。
  • loglikelihood_f1: 多项选择的语料库级 F1 分数 - 对于选项只包含单个词元的任务,也存在一个更快的版本 (loglikelihood_f1_single_token)。
  • mcc: 马修斯相关系数(一种衡量统计分布之间一致性的指标)。
  • recall_at_1: 具有最佳对数概率的选项是正确选项的实例比例 - 对于每个选项只包含单个词元的任务,也存在一个更快的版本 (recall_at_1_single_token)。
  • recall_at_2: 具有第二佳或更佳对数概率的选项是正确选项的实例比例 - 对于每个选项只包含单个词元的任务,也存在一个更快的版本 (recall_at_2_single_token)。
  • mrr: 平均倒数排名(Mean reciprocal rank),一种衡量按正确性/相关性排序的选项排名质量的指标 - 对于选项只包含单个词元的任务,也存在一个更快的版本 (mrr_single_token)。
  • target_perplexity: 不同可用选项的困惑度。
  • acc_golds_likelihood: 有点不同,它实际检查的是单个目标的平均对数概率是高于还是低于 0.5。
  • multi_f1_numeric: 多个正确目标(gold target)的对数似然 F1 分数。

所有这些指标也存在“单词元”版本(loglikelihood_acc_single_token, loglikelihood_acc_norm_single_token, loglikelihood_f1_single_token, mcc_single_token, recall@2_single_tokenmrr_single_token)。当多项选择选项只比较单个词元(例如:“A” vs “B” vs “C” vs “D”,或“是” vs “否”)时,使用这些单词元版本的指标可以将所用时间除以选项的数量。单单词元评估还包括

  • multi_f1_numeric: 计算所有可能选项的 f1 分数并取平均值。

困惑度和语言建模的自动指标

这些指标使用提示(prompt)的对数似然。

  • word_perplexity: 按序列的词数加权的困惑度(输入的对数概率)。
  • byte_perplexity: 按序列的字节数加权的困惑度(输入的对数概率)。
  • bits_per_byte: 根据模型概率计算的每字节平均比特数。
  • log_prob: 预测输出的平均对数概率(对于语言建模是输入的对数概率)。

生成任务的自动指标

这些指标需要模型生成一个输出。因此它们的速度较慢。

  • 基础版
    • perfect_exact_match: 预测与正确答案(gold)完全匹配的实例比例。
    • exact_match: 预测与正确答案匹配(除了边界空白字符,即对两者都应用 strip 后)的实例比例。
    • quasi_exact_match: 归一化后的预测与归一化后的正确答案匹配的实例比例(归一化处理包括空白字符、冠词、大小写等)。也存在其他变体,使用不同的归一化器,例如 quasi_exact_match_triviaqa,它仅在对所有句子应用 strip 后对预测进行归一化。
    • prefix_exact_match: 预测的开头部分与正确答案匹配(除了边界空白字符,即对两者都应用 strip 后)的实例比例。
    • prefix_quasi_exact_match: 归一化后的预测开头部分与归一化后的正确答案匹配的实例比例(归一化处理包括空白字符、冠词、大小写等)。
    • exact_match_indicator: 移除了某个指示符之前的部分上下文后的精确匹配。
    • f1_score_quasi: 模型输出与正确答案之间词语重叠的平均 F1 分数,两者都先进行归一化处理。
    • f1_score: 模型输出与正确答案之间词语重叠的平均 F1 分数,不进行归一化处理。
    • f1_score_macro: 语料库级的宏 F1 分数。
    • f1_score_micro: 语料库级的微 F1 分数。
    • maj_at_5maj_at_8: 模型多数投票。从模型中获取 n(5 或 8)个生成结果,并假设最频繁出现的结果是实际预测。
  • 摘要
    • rouge: 平均 ROUGE 分数 (Lin, 2004)
    • rouge1: 基于 1-gram 重叠的平均 ROUGE 分数 (Lin, 2004)
    • rouge2: 基于 2-gram 重叠的平均 ROUGE 分数 (Lin, 2004)
    • rougeL: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)
    • rougeLsum: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)
    • rouge_t5 (BigBench): 所有可用 ROUGE 指标的语料库级 ROUGE 分数。
    • faithfulness: 基于 Laban et al. (2022) 的 SummaC 方法的忠实度分数。
    • extractiveness: 基于 (Grusky et al., 2018) 的报告
      • summarization_coverage: 模型生成的摘要是源文档中提取片段的程度,
      • summarization_density: 模型生成的摘要是基于源文档的提取式摘要的程度,
      • summarization_compression: 模型生成的摘要相对于源文档的压缩程度。
    • bert_score: 报告模型生成与正确摘要之间的平均 BERTScore 精确率、召回率和 F1 分数 (Zhang et al., 2020)
  • 翻译
    • bleu: 语料库级的 BLEU 分数 (Papineni et al., 2002) - 使用 sacrebleu 实现。
    • bleu_1: 基于 1-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。
    • bleu_4: 基于 4-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。
    • chrf: 字符 n-gram 匹配 F 分数。
    • ter: 翻译编辑/错误率。
  • 版权
    • copyright: 报告
      • longest_common_prefix_length: 模型生成与参考之间最长公共前缀的平均长度,
      • edit_distance: 模型生成与参考之间的平均 Levenshtein 编辑距离,
      • edit_similarity: 模型生成与参考之间的平均 Levenshtein 编辑相似度(按较长序列的长度归一化)。
  • 数学
    • quasi_exact_match_math: 归一化后的预测与归一化后的正确答案匹配的实例比例(为数学问题进行归一化,移除了 LaTeX 符号、单位等)。
    • maj_at_4_math: 多数选择评估,对预测和正确答案使用数学归一化。
    • quasi_exact_match_gsm8k: 归一化后的预测与归一化后的正确答案匹配的实例比例(为 gsm8k 进行归一化,移除了 LaTeX 符号、单位等)。
    • maj_at_8_gsm8k: 多数选择评估,对预测和正确答案使用 gsm8k 归一化。

LLM-as-Judge(以大模型为评委)

  • llm_judge_gpt3p5: 可用于任何生成任务,模型将由一个 GPT3.5 模型使用 OpenAI API 进行评分。
  • llm_judge_llama_3_405b: 可用于任何生成任务,模型将由一个 Llama 3 405B 模型使用 HuggingFace API 进行评分。
  • llm_judge_multi_turn_gpt3p5: 可用于任何生成任务,模型将由一个 GPT3.5 模型使用 OpenAI API 进行评分。它用于像 mt-bench 这样的多轮任务。
  • llm_judge_multi_turn_llama_3_405b: 可用于任何生成任务,模型将由一个 Llama 3 405B 模型使用 HuggingFace API 进行评分。它用于像 mt-bench 这样的多轮任务。
< > 在 GitHub 上更新