Lighteval 文档
指标列表
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
指标列表
多项选择任务的自动指标
这些指标使用不同可能目标的对数似然率。
loglikelihood_acc
: 最佳对数概率选择正确的实例比例 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (loglikelihood_acc_single_token
)loglikelihood_acc_norm
: 最佳对数概率选择正确的实例比例,按序列长度标准化 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (loglikelihood_acc_norm_single_token
)loglikelihood_acc_norm_nospace
: 最佳对数概率选择正确的实例比例,按序列长度标准化,忽略第一个空格loglikelihood_f1
: 多项选择的语料库级别 F1 分数 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (loglikelihood_f1_single_token
)mcc
: 马修斯相关系数(衡量统计分布之间一致性的指标),recall_at_1
: 最佳对数概率选择正确的实例比例 - 对于每个选择可能的选择仅包含一个 token 的任务,也存在更快的版本 (recall_at_1_single_token
)recall_at_2
: 最佳对数概率第二好的选择或更好的选择正确的实例比例 - 对于每个选择可能的选择仅包含一个 token 的任务,也存在更快的版本 (recall_at_2_single_token
)mrr
: 平均倒数排名,衡量按正确性/相关性排序的选择列表质量的指标 - 对于可能的选择仅包含一个 token 的任务,也存在更快的版本 (mrr_single_token
)target_perplexity
: 可用不同选择的困惑度。acc_golds_likelihood
: 有点不同,它实际上检查单个目标的平均对数概率是高于还是低于 0.5multi_f1_numeric
: 多个黄金目标的对数似然率 F1 分数
所有这些指标也存在“单 token”版本 (loglikelihood_acc_single_token
, loglikelihood_acc_norm_single_token
, loglikelihood_f1_single_token
, mcc_single_token
, recall@2_single_token
和 mrr_single_token
)。当多项选择选项仅比较一个 token 时(例如:“A” vs “B” vs “C” vs “D”,或 “yes” vs “no”),在单 token 版本中使用这些指标将花费的时间除以选择的数量。单 token 评估还包括
multi_f1_numeric
: 计算所有可能选择的 f1 分数并取平均值。
困惑度和语言建模的自动指标
这些指标使用 prompt 的对数似然率。
word_perplexity
: 困惑度(输入的对数概率),按序列的单词数加权。byte_perplexity
: 困惑度(输入的对数概率),按序列的字节数加权。bits_per_byte
: 根据模型概率,每个字节的平均比特数。log_prob
: 预测输出的平均对数概率(语言建模的输入对数概率)。
生成任务的自动指标
这些指标需要模型生成输出。因此它们速度较慢。
- 基础
perfect_exact_match
: 预测与黄金标准完全匹配的实例比例。exact_match
: 预测与黄金标准匹配的实例比例,除了边界空格(= 在对两者应用strip
之后)。quasi_exact_match
: 归一化预测与归一化黄金标准匹配的实例比例(对空格、冠词、大小写等进行归一化)。存在其他变体,具有其他归一化器,例如quasi_exact_match_triviaqa
,它仅在对所有句子应用 strip 后才对预测进行归一化。prefix_exact_match
: 预测的开头与黄金标准匹配的实例比例,除了边界空格(= 在对两者应用strip
之后)。prefix_quasi_exact_match
: 归一化预测的开头与归一化黄金标准匹配的实例比例(对空格、冠词、大小写等进行归一化)exact_match_indicator
: 精确匹配,删除了一些前面的上下文(在指示符之前)f1_score_quasi
: 模型输出和黄金标准之间单词重叠的平均 F1 分数,两者首先都被归一化f1_score
: 模型输出和黄金标准之间单词重叠的平均 F1 分数,不进行归一化f1_score_macro
: 语料库级别宏 F1 分数f1_score_macro
: 语料库级别微 F1 分数maj_at_5
和maj_at_8
: 模型多数投票。从模型中选取 n (5 或 8) 个生成结果,并假设最频繁的结果是实际预测。
- 摘要
rouge
: 平均 ROUGE 分数 (Lin, 2004)rouge1
: 基于 1-gram 重叠的平均 ROUGE 分数 (Lin, 2004)。rouge2
: 基于 2-gram 重叠的平均 ROUGE 分数 (Lin, 2004)。rougeL
: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)。rougeLsum
: 基于最长公共子序列重叠的平均 ROUGE 分数 (Lin, 2004)。rouge_t5
(BigBench): 所有可用 ROUGE 指标的语料库级别 ROUGE 分数faithfulness
: 基于 Laban et al. (2022) 的 SummaC 方法的忠实度分数。extractiveness
: 基于 (Grusky et al., 2018) 报告summarization_coverage
: 模型生成的摘要是从源文档中提取的片段的程度,summarization_density
: 模型生成的摘要是基于源文档的提取式摘要的程度,summarization_compression
: 模型生成的摘要相对于源文档的压缩程度。
bert_score
: 报告模型生成和黄金标准摘要之间的平均 BERTScore 精确率、召回率和 f1 分数 (Zhang et al., 2020)。- 翻译
bleu
: 语料库级别 BLEU 分数 (Papineni et al., 2002) - 使用 sacrebleu 实现。bleu_1
: 基于 1-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。bleu_4
: 基于 4-gram 重叠的平均样本 BLEU 分数 (Papineni et al., 2002) - 使用 nltk 实现。chrf
: 字符 n-gram 匹配 f-score。ter
: 翻译编辑/错误率。
- 版权
copyright
: 报告longest_common_prefix_length
: 模型生成和参考之间最长公共前缀的平均长度,edit_distance
: 模型生成和参考之间的平均莱文斯坦编辑距离,edit_similarity
: 模型生成和参考之间的平均莱文斯坦编辑相似度(按较长序列的长度归一化)。
- 数学
quasi_exact_match_math
: 归一化预测与归一化黄金标准匹配的实例比例(对数学进行归一化,其中删除了 latex 符号、单位等)maj_at_4_math
: 多数选择评估,对预测和黄金标准使用数学归一化quasi_exact_match_gsm8k
: 归一化预测与归一化黄金标准匹配的实例比例(对 gsm8k 进行归一化,其中删除了 latex 符号、单位等)maj_at_8_gsm8k
: 多数选择评估,对预测和黄金标准使用 gsm8k 归一化
LLM 作为评判器
llm_judge_gpt3p5
: 可用于任何生成任务,模型将由使用 OpenAI API 的 GPT3.5 模型评分llm_judge_llama_3_405b
: 可用于任何生成任务,模型将由使用 HuggingFace API 的 Llama 3.405B 模型评分llm_judge_multi_turn_gpt3p5
: 可用于任何生成任务,模型将由使用 OpenAI API 的 GPT3.5 模型评分。它用于多轮任务,如 mt-bench。llm_judge_multi_turn_llama_3_405b
: 可用于任何生成任务,模型将由使用 HuggingFace API 的 Llama 3.405B 模型评分。它用于多轮任务,如 mt-bench。