指标 - Hugging Face 机器学习平台

class lighteval.metrics.Metric

( metric_name: str higher_is_better: bool category: MetricCategory use_case: MetricUseCase sample_level_fn: <built-in function callable> corpus_level_fn: <built-in function callable> )

class lighteval.metrics.utils.metric_utils.CorpusLevelMetric

< 源代码 >

( metric_name: str higher_is_better: bool category: MetricCategory use_case: MetricUseCase sample_level_fn: <built-in function callable> corpus_level_fn: <built-in function callable> )

指标在整个语料库上计算，计算发生在聚合阶段

class lighteval.metrics.utils.metric_utils.SampleLevelMetric

< 源代码 >

( metric_name: str higher_is_better: bool category: MetricCategory use_case: MetricUseCase sample_level_fn: <built-in function callable> corpus_level_fn: <built-in function callable> )

指标按样本计算，然后在整个语料库上聚合

class lighteval.metrics.utils.metric_utils.MetricGrouping

< 源代码 >

( metric_name: list higher_is_better: dict category: MetricCategory use_case: MetricUseCase sample_level_fn: <built-in function callable> corpus_level_fn: dict )

有些指标一起计算更具优势。例如，如果所有指标的代价高昂的预处理是相同的，那么一次性计算更有意义。

class lighteval.metrics.utils.metric_utils.CorpusLevelMetricGrouping

< 源代码 >

( metric_name: list higher_is_better: dict category: MetricCategory use_case: MetricUseCase sample_level_fn: <built-in function callable> corpus_level_fn: dict )

MetricGrouping 在整个语料库上计算，计算发生在聚合阶段

class lighteval.metrics.utils.metric_utils.SampleLevelMetricGrouping

< 源代码 >

( metric_name: list higher_is_better: dict category: MetricCategory use_case: MetricUseCase sample_level_fn: <built-in function callable> corpus_level_fn: dict )

MetricGrouping 按样本计算，然后在整个语料库上聚合

class lighteval.metrics.metrics_corpus.CorpusLevelF1Score

< 源代码 >

( average: str num_classes: int = 2 )

compute

< 源代码 >

( items: list )

通过使用 scikit learn 实现，计算整个语料库生成项的指标分数。

class lighteval.metrics.metrics_corpus.CorpusLevelPerplexityMetric

< 源代码 >

( metric_type: str )

compute

< 源代码 >

( items: list )

计算整个语料库生成项的指标分数。

Lighteval

指标

指标

指标

class lighteval.metrics.Metric

CorpusLevelMetric

class lighteval.metrics.utils.metric_utils.CorpusLevelMetric

SampleLevelMetric

class lighteval.metrics.utils.metric_utils.SampleLevelMetric

MetricGrouping

class lighteval.metrics.utils.metric_utils.MetricGrouping

CorpusLevelMetricGrouping

class lighteval.metrics.utils.metric_utils.CorpusLevelMetricGrouping

SampleLevelMetricGrouping

class lighteval.metrics.utils.metric_utils.SampleLevelMetricGrouping

语料库指标

CorpusLevelF1Score

class lighteval.metrics.metrics_corpus.CorpusLevelF1Score

compute

CorpusLevelPerplexityMetric

class lighteval.metrics.metrics_corpus.CorpusLevelPerplexityMetric

compute

语料库级别翻译指标

class lighteval.metrics.metrics_corpus.CorpusLevelTranslationMetric

compute

matthews_corrcoef

lighteval.metrics.metrics_corpus.matthews_corrcoef

示例指标

精确匹配

class lighteval.metrics.metrics_sample.ExactMatches

compute

compute_one_item

F1_score

class lighteval.metrics.metrics_sample.F1_score

compute

compute_one_item

Log似然准确率

class lighteval.metrics.metrics_sample.LoglikelihoodAcc

compute

NormalizedMultiChoiceProbability

class lighteval.metrics.metrics_sample.NormalizedMultiChoiceProbability

compute

Probability

class lighteval.metrics.metrics_sample.Probability

compute

Recall

class lighteval.metrics.metrics_sample.Recall

compute

MRR

class lighteval.metrics.metrics_sample.MRR

compute

ROUGE

class lighteval.metrics.metrics_sample.ROUGE

compute

BertScore

class lighteval.metrics.metrics_sample.BertScore

compute

Extractiveness

class lighteval.metrics.metrics_sample.Extractiveness

compute

Faithfulness

class lighteval.metrics.metrics_sample.Faithfulness

compute

BLEURT

class lighteval.metrics.metrics_sample.BLEURT

compute

BLEU

class lighteval.metrics.metrics_sample.BLEU

compute

StringDistance

class lighteval.metrics.metrics_sample.StringDistance

compute

edit_similarity

longest_common_prefix_length

JudgeLLM

class lighteval.metrics.metrics_sample.JudgeLLM

JudgeLLMMTBench

class lighteval.metrics.metrics_sample.JudgeLLMMTBench

compute

JudgeLLMMixEval