Lighteval 文档

指标列表

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

指标列表

多项选择任务的自动指标

这些指标使用不同可能目标的对数似然率。

  • loglikelihood_acc: 最佳对数概率选择正确的实例比例 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (loglikelihood_acc_single_token)
  • loglikelihood_acc_norm: 最佳对数概率选择正确的实例比例,按序列长度标准化 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (loglikelihood_acc_norm_single_token)
  • loglikelihood_acc_norm_nospace: 最佳对数概率选择正确的实例比例,按序列长度标准化,忽略第一个空格
  • loglikelihood_f1: 多项选择的语料库级别 F1 分数 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (loglikelihood_f1_single_token)
  • mcc: 马修斯相关系数(衡量统计分布之间一致性的指标),
  • recall_at_1: 最佳对数概率选择正确的实例比例 - 对于每个选择可能的选择仅包含一个 token 的任务,也存在更快的版本 (recall_at_1_single_token)
  • recall_at_2: 最佳对数概率第二好的选择或更好的选择正确的实例比例 - 对于每个选择可能的选择仅包含一个 token 的任务,也存在更快的版本 (recall_at_2_single_token)
  • mrr: 平均倒数排名,衡量按正确性/相关性排序的选择列表质量的指标 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (mrr_single_token)
  • target_perplexity: 可用不同选择的困惑度。
  • acc_golds_likelihood: 有点不同,它实际上检查单个目标的平均对数概率是高于还是低于 0.5
  • multi_f1_numeric: 多个黄金目标的对数似然率 F1 分数

所有这些指标也存在“单 token”版本 (loglikelihood_acc_single_token, loglikelihood_acc_norm_single_token, loglikelihood_f1_single_token, mcc_single_token, recall@2_single_tokenmrr_single_token)。当多项选择选项仅比较一个 token 时(例如:“A” vs “B” vs “C” vs “D”,或 “yes” vs “no”),在单 token 版本中使用这些指标将花费的时间除以选择的数量。单 token 评估还包括

  • multi_f1_numeric: 计算所有可能选择的 f1 分数并取平均值。

困惑度和语言建模的自动指标

这些指标使用 prompt 的对数似然率。

  • word_perplexity: 困惑度(输入的对数概率),按序列的单词数加权。
  • byte_perplexity: 困惑度(输入的对数概率),按序列的字节数加权。
  • bits_per_byte: 根据模型概率,每个字节的平均比特数。
  • log_prob: 预测输出的平均对数概率(语言建模的输入对数概率)。

生成任务的自动指标

这些指标需要模型生成输出。因此它们速度较慢。

  • 基础
    • perfect_exact_match: 预测与黄金标准完全匹配的实例比例。
    • exact_match: 预测与黄金标准匹配的实例比例,除了边界空格(= 在对两者应用 strip 之后)。
    • quasi_exact_match: 归一化预测与归一化黄金标准匹配的实例比例(对空格、冠词、大小写等进行归一化)。存在其他变体,具有其他归一化器,例如 quasi_exact_match_triviaqa,它仅在对所有句子应用 strip 后才对预测进行归一化。
    • prefix_exact_match: 预测的开头与黄金标准匹配的实例比例,除了边界空格(= 在对两者应用 strip 之后)。
    • prefix_quasi_exact_match: 归一化预测的开头与归一化黄金标准匹配的实例比例(对空格、冠词、大小写等进行归一化)
    • exact_match_indicator: 精确匹配,删除了一些前面的上下文(在指示符之前)
    • f1_score_quasi: 模型输出和黄金标准之间单词重叠的平均 F1 分数,两者首先都被归一化
    • f1_score: 模型输出和黄金标准之间单词重叠的平均 F1 分数,不进行归一化
    • f1_score_macro: 语料库级别宏 F1 分数
    • f1_score_macro: 语料库级别微 F1 分数
    • maj_at_5maj_at_8: 模型多数投票。从模型中选取 n (5 或 8) 个生成结果,并假设最频繁的结果是实际预测。
  • 摘要
    • rouge: 平均 ROUGE 分数 (Lin, 2004)
    • rouge1: 基于 1-gram 重叠的平均 ROUGE 分数 (Lin, 2004)
    • rouge2: 基于 2-gram 重叠的平均 ROUGE 分数 (Lin, 2004)
    • rougeL: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)
    • rougeLsum: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)
    • rouge_t5 (BigBench): 所有可用 ROUGE 指标的语料库级别 ROUGE 分数
    • faithfulness: 基于 Laban et al. (2022) 的 SummaC 方法的忠实度分数。
    • extractiveness: 基于 (Grusky et al., 2018) 报告
      • summarization_coverage: 模型生成的摘要是从源文档中提取的片段的程度,
      • summarization_density: 模型生成的摘要是基于源文档的提取式摘要的程度,
      • summarization_compression: 模型生成的摘要相对于源文档的压缩程度。
    • bert_score: 报告模型生成和黄金标准摘要之间的平均 BERTScore 精确率、召回率和 f1 分数 (Zhang et al., 2020)
    • 翻译
    • bleu: 语料库级别 BLEU 分数 (Papineni et al., 2002) - 使用 sacrebleu 实现。
    • bleu_1: 基于 1-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。
    • bleu_4: 基于 4-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。
    • chrf: 字符 n-gram 匹配 f-score。
    • ter: 翻译编辑/错误率。
  • 版权
    • copyright: 报告
      • longest_common_prefix_length: 模型生成和参考之间最长公共前缀的平均长度,
      • edit_distance: 模型生成和参考之间的平均莱文斯坦编辑距离,
      • edit_similarity: 模型生成和参考之间的平均莱文斯坦编辑相似度(按较长序列的长度归一化)。
  • 数学
    • quasi_exact_match_math: 归一化预测与归一化黄金标准匹配的实例比例(对数学进行归一化,其中删除了 latex 符号、单位等)
    • maj_at_4_math: 多数选择评估,对预测和黄金标准使用数学归一化
    • quasi_exact_match_gsm8k: 归一化预测与归一化黄金标准匹配的实例比例(对 gsm8k 进行归一化,其中删除了 latex 符号、单位等)
    • maj_at_8_gsm8k: 多数选择评估,对预测和黄金标准使用 gsm8k 归一化

LLM 作为评判器

  • llm_judge_gpt3p5: 可用于任何生成任务,模型将由使用 OpenAI API 的 GPT3.5 模型评分
  • llm_judge_llama_3_405b: 可用于任何生成任务,模型将由使用 HuggingFace API 的 Llama 3.405B 模型评分
  • llm_judge_multi_turn_gpt3p5: 可用于任何生成任务,模型将由使用 OpenAI API 的 GPT3.5 模型评分。它用于多轮任务,如 mt-bench。
  • llm_judge_multi_turn_llama_3_405b: 可用于任何生成任务,模型将由使用 HuggingFace API 的 Llama 3.405B 模型评分。它用于多轮任务,如 mt-bench。
< > 在 GitHub 上更新