Lighteval 文档
指标列表
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
指标列表
多项选择任务的自动指标
这些指标使用不同可能目标(target)的对数似然(log-likelihood)。
loglikelihood_acc
: 具有最佳对数概率(logprob)的选项是正确选项的实例比例 - 对于选项只包含单个词元(token)的任务,也存在一个更快的版本 (loglikelihood_acc_single_token
)。loglikelihood_acc_norm
: 具有最佳对数概率(经序列长度归一化)的选项是正确选项的实例比例 - 对于选项只包含单个词元的任务,也存在一个更快的版本 (loglikelihood_acc_norm_single_token
)。loglikelihood_acc_norm_nospace
: 具有最佳对数概率(经序列长度归一化)的选项是正确选项的实例比例,忽略第一个空格。loglikelihood_f1
: 多项选择的语料库级 F1 分数 - 对于选项只包含单个词元的任务,也存在一个更快的版本 (loglikelihood_f1_single_token
)。mcc
: 马修斯相关系数(一种衡量统计分布之间一致性的指标)。recall_at_1
: 具有最佳对数概率的选项是正确选项的实例比例 - 对于每个选项只包含单个词元的任务,也存在一个更快的版本 (recall_at_1_single_token
)。recall_at_2
: 具有第二佳或更佳对数概率的选项是正确选项的实例比例 - 对于每个选项只包含单个词元的任务,也存在一个更快的版本 (recall_at_2_single_token
)。mrr
: 平均倒数排名(Mean reciprocal rank),一种衡量按正确性/相关性排序的选项排名质量的指标 - 对于选项只包含单个词元的任务,也存在一个更快的版本 (mrr_single_token
)。target_perplexity
: 不同可用选项的困惑度。acc_golds_likelihood
: 有点不同,它实际检查的是单个目标的平均对数概率是高于还是低于 0.5。multi_f1_numeric
: 多个正确目标(gold target)的对数似然 F1 分数。
所有这些指标也存在“单词元”版本(loglikelihood_acc_single_token
, loglikelihood_acc_norm_single_token
, loglikelihood_f1_single_token
, mcc_single_token
, recall@2_single_token
和 mrr_single_token
)。当多项选择选项只比较单个词元(例如:“A” vs “B” vs “C” vs “D”,或“是” vs “否”)时,使用这些单词元版本的指标可以将所用时间除以选项的数量。单单词元评估还包括
multi_f1_numeric
: 计算所有可能选项的 f1 分数并取平均值。
困惑度和语言建模的自动指标
这些指标使用提示(prompt)的对数似然。
word_perplexity
: 按序列的词数加权的困惑度(输入的对数概率)。byte_perplexity
: 按序列的字节数加权的困惑度(输入的对数概率)。bits_per_byte
: 根据模型概率计算的每字节平均比特数。log_prob
: 预测输出的平均对数概率(对于语言建模是输入的对数概率)。
生成任务的自动指标
这些指标需要模型生成一个输出。因此它们的速度较慢。
- 基础版
perfect_exact_match
: 预测与正确答案(gold)完全匹配的实例比例。exact_match
: 预测与正确答案匹配(除了边界空白字符,即对两者都应用strip
后)的实例比例。quasi_exact_match
: 归一化后的预测与归一化后的正确答案匹配的实例比例(归一化处理包括空白字符、冠词、大小写等)。也存在其他变体,使用不同的归一化器,例如quasi_exact_match_triviaqa
,它仅在对所有句子应用 strip 后对预测进行归一化。prefix_exact_match
: 预测的开头部分与正确答案匹配(除了边界空白字符,即对两者都应用strip
后)的实例比例。prefix_quasi_exact_match
: 归一化后的预测开头部分与归一化后的正确答案匹配的实例比例(归一化处理包括空白字符、冠词、大小写等)。exact_match_indicator
: 移除了某个指示符之前的部分上下文后的精确匹配。f1_score_quasi
: 模型输出与正确答案之间词语重叠的平均 F1 分数,两者都先进行归一化处理。f1_score
: 模型输出与正确答案之间词语重叠的平均 F1 分数,不进行归一化处理。f1_score_macro
: 语料库级的宏 F1 分数。f1_score_micro
: 语料库级的微 F1 分数。maj_at_5
和maj_at_8
: 模型多数投票。从模型中获取 n(5 或 8)个生成结果,并假设最频繁出现的结果是实际预测。
- 摘要
rouge
: 平均 ROUGE 分数 (Lin, 2004)。rouge1
: 基于 1-gram 重叠的平均 ROUGE 分数 (Lin, 2004)。rouge2
: 基于 2-gram 重叠的平均 ROUGE 分数 (Lin, 2004)。rougeL
: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)。rougeLsum
: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)。rouge_t5
(BigBench): 所有可用 ROUGE 指标的语料库级 ROUGE 分数。faithfulness
: 基于 Laban et al. (2022) 的 SummaC 方法的忠实度分数。extractiveness
: 基于 (Grusky et al., 2018) 的报告summarization_coverage
: 模型生成的摘要是源文档中提取片段的程度,summarization_density
: 模型生成的摘要是基于源文档的提取式摘要的程度,summarization_compression
: 模型生成的摘要相对于源文档的压缩程度。
bert_score
: 报告模型生成与正确摘要之间的平均 BERTScore 精确率、召回率和 F1 分数 (Zhang et al., 2020)。
- 翻译
bleu
: 语料库级的 BLEU 分数 (Papineni et al., 2002) - 使用 sacrebleu 实现。bleu_1
: 基于 1-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。bleu_4
: 基于 4-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。chrf
: 字符 n-gram 匹配 F 分数。ter
: 翻译编辑/错误率。
- 版权
copyright
: 报告longest_common_prefix_length
: 模型生成与参考之间最长公共前缀的平均长度,edit_distance
: 模型生成与参考之间的平均 Levenshtein 编辑距离,edit_similarity
: 模型生成与参考之间的平均 Levenshtein 编辑相似度(按较长序列的长度归一化)。
- 数学
quasi_exact_match_math
: 归一化后的预测与归一化后的正确答案匹配的实例比例(为数学问题进行归一化,移除了 LaTeX 符号、单位等)。maj_at_4_math
: 多数选择评估,对预测和正确答案使用数学归一化。quasi_exact_match_gsm8k
: 归一化后的预测与归一化后的正确答案匹配的实例比例(为 gsm8k 进行归一化,移除了 LaTeX 符号、单位等)。maj_at_8_gsm8k
: 多数选择评估,对预测和正确答案使用 gsm8k 归一化。
LLM-as-Judge(以大模型为评委)
llm_judge_gpt3p5
: 可用于任何生成任务,模型将由一个 GPT3.5 模型使用 OpenAI API 进行评分。llm_judge_llama_3_405b
: 可用于任何生成任务,模型将由一个 Llama 3 405B 模型使用 HuggingFace API 进行评分。llm_judge_multi_turn_gpt3p5
: 可用于任何生成任务,模型将由一个 GPT3.5 模型使用 OpenAI API 进行评分。它用于像 mt-bench 这样的多轮任务。llm_judge_multi_turn_llama_3_405b
: 可用于任何生成任务,模型将由一个 Llama 3 405B 模型使用 HuggingFace API 进行评分。它用于像 mt-bench 这样的多轮任务。