🇨🇿 BenCzechMark - 你的LLM能理解捷克语吗?

发布于 2024 年 10 月 1 日
在 GitHub 上更新

🇨🇿 BenCzechMark 是首个也是最全面的评估套件,用于评估大型语言模型 (LLM) 在捷克语中的能力。它旨在测试 LLM 在以下方面的表现:

  • 用捷克语进行推理并执行复杂任务。
  • 生成并验证语法和语义正确的捷克语。
  • 通过回答有关捷克文化和捷克相关事实的问题,提取信息并存储知识。
  • 完成语言模型最初训练的目标——估计捷克语文本的概率。

为实现这一目标,我们收集了跨越 9 个类别的 50 项任务,其中 90% 的任务内容是原生的、非翻译的。

在这篇博客中,我们介绍了评估套件本身以及 BenCzechMark 排行榜,榜上囊括了超过 25 个不同规模的开源模型!

📋 任务和类别

🇨🇿 BenCzechMark(当前版本)分为 9 个类别,以全面评估 LLM 的能力。对于每个任务,

  • 我们手动设计了至少 5 个提示,并记录了不同提示下的最佳性能和性能差异。
  • 我们区分了 4 种类型的任务,并为它们关联了相应的指标:
    • 准确率 (Acc) 用于衡量多项选择 (MC) 任务,
    • 完全匹配 (EM) 用于衡量开放式简答生成任务,
    • 受试者工作特征曲线下面积 (AUROC,在多类别设置中计算为一对多(one-vs-all)的平均值) 用于衡量分类任务的性能,无需进行阈值校准。开箱即用的语言模型通常会受到训练数据中类别分布、提示结构以及推理过程中提供的示例的影响。这些偏差在不同模型之间可能存在差异,导致预测结果因具体模型及其影响因素而变得不一致。为了确保在不同类别分布的数据集上做出可靠的决策,需要进行校准以调整模型的预测。然而,通过使用像 AUROC 这样不依赖阈值的指标(它关注的是排序而非决策阈值),可以完全避免校准。这种方法通过消除校准的需要,实现了更公平的模型比较(更多关于 LLM 校准的细节,请参见例如 Zhaeo 等人,2021)。
    • 词级困惑度 (Ppl) 与语言建模任务相关。它量化了模型生成文本的可能性,并按语料库中的词数进行归一化。

数据集中翻译的部分(占总数的 10%)主要通过 CUBBITT LINDAT 翻译完成,但 CsFever 除外,其作者使用了 DeepL 进行翻译。

以下是完整的类别列表,以及使用的数据集和指标:

  1. 阅读理解 测试系统是否能根据上下文中提供的信息提取问题的答案。
    • Belebele - Acc - 包含有关手动翻译的网页文章的问题。
    • SQAD3.2 - EM - 是一项成熟的 SQuAD 格式阅读理解任务,源自维基百科。
  2. 事实知识 包含测试模型中存储的事实知识的问题。
    • Umimeto (5 个任务,侧重于生物/化学/历史/信息学/物理) - Acc - 来自相应主题的小学和高中问题。源自 umimeto.org
    • TriviaQA - EM (使用 CUBITT 翻译) - 包含来自知识问答和智力竞赛网站的问答(以美国为中心的数据集)。
    • NaturalQuestions - EM (使用 CUBITT 翻译) - 包含来自谷歌搜索的问答(以美国为中心的数据集)。我们引入这些是为了确保模型在用捷克语提示时(即,在可能的领域转换后)没有忘记任何以英语为中心的知识。
  3. 捷克语理解 针对捷克语中句法结构和细微含义的特殊理解。
    • CERMAT (开放/判断/多选) - EM/AUROC/Acc - 侧重于理解任务,源自小学六年级、九年级以及州立高中考试的开放式、判断题和多项选择题。
    • 语法错误检测 - AUC (判断语法错误的真/假任务) - 包含来自语言学习者作文的句子。
    • Agree - Acc - 要求填写过去时动词缺失的语法后缀。
  4. 语言建模 测试模型对特定捷克语样本进行采样的可能性。
    • 捷克国家语料库 - Ppl - 包括 7 个任务,涵盖口语、方言、历史以及其他版本的捷克语,源自 ČNK
    • HellaSwag - Acc - (使用 CUBITT 翻译) 要求从 4 个选项中选择文本的合理续写。
  5. 捷克语数学推理 量化模型处理和解决捷克语数学作业的能力。
    • Klokan QA - Acc - 来自捷克数学竞赛的小学/高中问题。
    • CERMAT - EM/Acc - CERMAT 开放式/多选题的数学部分。
    • Umimeto (数学) - Acc - Umimeto 的数学部分。
  6. 自然语言推断 测试文本是否包含相关文本对中所需的信息。
    • Czech SNLI - AUROC (使用 CUBITT 翻译 SNLI + 手动校对) - 测试前提文本中是否蕴含假设。
    • CSFever - AUROC (捷克语版的 FEVER 数据集,使用部分翻译) - 询问声明是否(至少部分)得到证据的支持。
    • CTKFacts - AUROC - 格式与 CSFEVER 相同,但手动从捷克新闻社的文章中获取。
    • Propaganda - AUROC - 包含 13 个任务,预测新闻文章的各个方面,如地点、类型和情感主题。
  7. 命名实体识别 确定模型是否能识别文本中不同类型的命名实体。
    • CNEC2.0 - EM - 捷克语的标准 NER 数据集。
    • Court Decisions - EM - 源自捷克最高法院/宪法法院判决的 NER。
  8. 情感分析 量化模型估计文本中情感信息的能力。
    • Subjectivity - AUROC - 询问一段文字是主观的还是客观的。
    • CzechSentiment (MALL/CSFD/FB) - AUROC - 对产品评论、电影评论和 Facebook 评论的情感分析。
  9. 文档检索 专注于识别相关文档。
    • Historical IR - Acc - 用于选择与查询相关/不相关的段落的多项选择任务。

⚔️ 模型对决和平均分

由于我们对不同任务使用不同的指标,简单的平均由于尺度不同而行不通。因此,我们引入了一种新颖的方法来确定最终得分:我们让模型进行对决!

对于每项任务和指标,我们都在 α=0.05 的水平上进行统计显著性检验。这意味着模型 A 的性能等于模型 B 的性能的概率估计小于 0.05。我们使用以下检验方法,每种方法的统计功效各不相同:

  • ACC 和 EM:单尾配对 t 检验,
  • AUROC:受 Goutte 等人,2005 启发的贝叶斯检验,
  • Ppl:自助法 (bootstrapping)。

然后我们计算一个模型的*对决获胜分 (DWS)* - 即在该任务上,对所有其他模型获胜的对决比例。最后,我们按如下方式计算总分:

  • 类别 DWS:类别内各任务得分的平均值,
  • 平均 DWS:跨类别 DWS 的平均值。

这样就得到了一个易于理解的模型得分:宏平均模型胜率!

👑 BenCzechMark 排行榜 - Llama-405B 夺冠

为了在我们的套件中找出表现最佳的开源模型,我们使用以下参数评估了 26 个开放权重模型:

  • 最大输入长度:2048 个词元
  • 少样本示例:3 个
  • 截断:智能截断(首先截断少样本示例,然后截断任务描述)
  • 对数概率聚合:平均池化(有助于减轻长文档偏见)
  • 聊天模板:未使用

结果可以在我们的 空间 中查看。虽然 Llama-450B 是明显的总冠军,但它并没有在所有类别中都占据主导地位。有趣的是,一些模型在特定领域表现出色——例如:

  • Qwen-72B 在数学和信息检索方面表现出色,但在其他类别中落后于类似规模的模型。
  • Aya-23-35B 模型在情感和语言建模方面表现优异,但在不同类别中同样落后。
  • Gemma-2 9B 在捷克语阅读理解方面取得了优异的成绩,超过了许多更大的模型。

🇨🇿 认为你的模型能在捷克语上表现出色吗?提交它!

我们在 BenCzechMark 的主要目标之一是赋能研究人员评估其模型在捷克语中的能力,并鼓励社区训练和发现能够在捷克语中表现出色的模型。

如果您知道某个模型表现突出,我们非常希望您能将其提交到我们的排行榜,让竞争更加激烈!

为了帮助您开始,我们准备了一个简单的三步指南,您可以在 BenCzechMark 空间的提交选项卡下找到它。

🌟 致谢

我们要感谢来自 BUT FITFI MUNICIIRC CTUHugging Face 的所有贡献者,感谢他们为 BenCzechMark 的诞生所做的宝贵工作。

我们还要感谢为部分任务提供源数据的组织,即 UmímetoCERMATČNK

📚 引用和参考文献

@article{fajcik2024benczechmark,
title = {{B}en{C}zech{M}ark: A Czech-centric Multitask and Multimetric Benchmark for Language Models with Duel Scoring Mechanism},
author = {Martin Fajcik and Martin Docekal and Jan Dolezal and Karel Ondrej and Karel Benes and Jan Kapsa and Michal Hradis and Zuzana Neverilova and Ales Horak and Michal Stefanik and Adam Jirkovsky and David Adamczyk and Jan Hula and Jan Sedivy and Hynek Kydlicek},
year = {2024},
url = {[https://huggingface.co/spaces/CZLC/BenCzechMark](https://huggingface.co/spaces/CZLC/BenCzechMark)}
institution = {Brno University of Technology, Masaryk University, Czech Technical University in Prague, Hugging Face},
}

社区

注册登录 以发表评论