指标列表

多项选择任务的自动指标

这些指标使用不同可能目标的对数似然率。

loglikelihood_acc: 最佳对数概率选择正确的实例比例 - 对于可能的选择仅包含一个 token 的任务，也存在更快的版本 (loglikelihood_acc_single_token)
loglikelihood_acc_norm: 最佳对数概率选择正确的实例比例，按序列长度标准化 - 对于可能的选择仅包含一个 token 的任务，也存在更快的版本 (loglikelihood_acc_norm_single_token)
loglikelihood_acc_norm_nospace: 最佳对数概率选择正确的实例比例，按序列长度标准化，忽略第一个空格
loglikelihood_f1: 多项选择的语料库级别 F1 分数 - 对于可能的选择仅包含一个 token 的任务，也存在更快的版本 (loglikelihood_f1_single_token)
mcc: 马修斯相关系数（衡量统计分布之间一致性的指标），
recall_at_1: 最佳对数概率选择正确的实例比例 - 对于每个选择可能的选择仅包含一个 token 的任务，也存在更快的版本 (recall_at_1_single_token)
recall_at_2: 最佳对数概率第二好的选择或更好的选择正确的实例比例 - 对于每个选择可能的选择仅包含一个 token 的任务，也存在更快的版本 (recall_at_2_single_token)
mrr: 平均倒数排名，衡量按正确性/相关性排序的选择列表质量的指标 - 对于可能的选择仅包含一个 token 的任务，也存在更快的版本 (mrr_single_token)
target_perplexity: 可用不同选择的困惑度。
acc_golds_likelihood: 有点不同，它实际上检查单个目标的平均对数概率是高于还是低于 0.5
multi_f1_numeric: 多个黄金目标的对数似然率 F1 分数

所有这些指标也存在“单 token”版本 (loglikelihood_acc_single_token, loglikelihood_acc_norm_single_token, loglikelihood_f1_single_token, mcc_single_token, recall@2_single_token 和 mrr_single_token)。当多项选择选项仅比较一个 token 时（例如：“A” vs “B” vs “C” vs “D”，或 “yes” vs “no”），在单 token 版本中使用这些指标将花费的时间除以选择的数量。单 token 评估还包括

multi_f1_numeric: 计算所有可能选择的 f1 分数并取平均值。

困惑度和语言建模的自动指标

这些指标使用 prompt 的对数似然率。

word_perplexity: 困惑度（输入的对数概率），按序列的单词数加权。
byte_perplexity: 困惑度（输入的对数概率），按序列的字节数加权。
bits_per_byte: 根据模型概率，每个字节的平均比特数。
log_prob: 预测输出的平均对数概率（语言建模的输入对数概率）。

生成任务的自动指标

这些指标需要模型生成输出。因此它们速度较慢。

基础
- perfect_exact_match: 预测与黄金标准完全匹配的实例比例。
- exact_match: 预测与黄金标准匹配的实例比例，除了边界空格（= 在对两者应用 strip 之后）。
- quasi_exact_match: 归一化预测与归一化黄金标准匹配的实例比例（对空格、冠词、大小写等进行归一化）。存在其他变体，具有其他归一化器，例如 quasi_exact_match_triviaqa，它仅在对所有句子应用 strip 后才对预测进行归一化。
- prefix_exact_match: 预测的开头与黄金标准匹配的实例比例，除了边界空格（= 在对两者应用 strip 之后）。
- prefix_quasi_exact_match: 归一化预测的开头与归一化黄金标准匹配的实例比例（对空格、冠词、大小写等进行归一化）
- exact_match_indicator: 精确匹配，删除了一些前面的上下文（在指示符之前）
- f1_score_quasi: 模型输出和黄金标准之间单词重叠的平均 F1 分数，两者首先都被归一化
- f1_score: 模型输出和黄金标准之间单词重叠的平均 F1 分数，不进行归一化
- f1_score_macro: 语料库级别宏 F1 分数
- f1_score_macro: 语料库级别微 F1 分数
- maj_at_5 和 maj_at_8: 模型多数投票。从模型中选取 n (5 或 8) 个生成结果，并假设最频繁的结果是实际预测。
摘要
- rouge: 平均 ROUGE 分数 (Lin, 2004)
- rouge1: 基于 1-gram 重叠的平均 ROUGE 分数 (Lin, 2004)。
- rouge2: 基于 2-gram 重叠的平均 ROUGE 分数 (Lin, 2004)。
- rougeL: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)。
- rougeLsum: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)。
- rouge_t5 (BigBench): 所有可用 ROUGE 指标的语料库级别 ROUGE 分数
- faithfulness: 基于 Laban et al. (2022) 的 SummaC 方法的忠实度分数。
- extractiveness: 基于 (Grusky et al., 2018) 报告
  - summarization_coverage: 模型生成的摘要是从源文档中提取的片段的程度，
  - summarization_density: 模型生成的摘要是基于源文档的提取式摘要的程度，
  - summarization_compression: 模型生成的摘要相对于源文档的压缩程度。
- bert_score: 报告模型生成和黄金标准摘要之间的平均 BERTScore 精确率、召回率和 f1 分数 (Zhang et al., 2020)。
- 翻译
- bleu: 语料库级别 BLEU 分数 (Papineni et al., 2002) - 使用 sacrebleu 实现。
- bleu_1: 基于 1-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。
- bleu_4: 基于 4-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。
- chrf: 字符 n-gram 匹配 f-score。
- ter: 翻译编辑/错误率。
版权
- copyright: 报告
  - longest_common_prefix_length: 模型生成和参考之间最长公共前缀的平均长度，
  - edit_distance: 模型生成和参考之间的平均莱文斯坦编辑距离，
  - edit_similarity: 模型生成和参考之间的平均莱文斯坦编辑相似度（按较长序列的长度归一化）。
数学
- quasi_exact_match_math: 归一化预测与归一化黄金标准匹配的实例比例（对数学进行归一化，其中删除了 latex 符号、单位等）
- maj_at_4_math: 多数选择评估，对预测和黄金标准使用数学归一化
- quasi_exact_match_gsm8k: 归一化预测与归一化黄金标准匹配的实例比例（对 gsm8k 进行归一化，其中删除了 latex 符号、单位等）
- maj_at_8_gsm8k: 多数选择评估，对预测和黄金标准使用 gsm8k 归一化

LLM 作为评判器

llm_judge_gpt3p5: 可用于任何生成任务，模型将由使用 OpenAI API 的 GPT3.5 模型评分
llm_judge_llama_3_405b: 可用于任何生成任务，模型将由使用 HuggingFace API 的 Llama 3.405B 模型评分
llm_judge_multi_turn_gpt3p5: 可用于任何生成任务，模型将由使用 OpenAI API 的 GPT3.5 模型评分。它用于多轮任务，如 mt-bench。
llm_judge_multi_turn_llama_3_405b: 可用于任何生成任务，模型将由使用 HuggingFace API 的 Llama 3.405B 模型评分。它用于多轮任务，如 mt-bench。

< > 在 GitHub 上更新

Lighteval

指标列表

多项选择任务的自动指标

困惑度和语言建模的自动指标

生成任务的自动指标

LLM 作为评判器