开放多语言大型语言模型（LLM）评估的最佳实践

社区文章发布于 2025 年 5 月 7 日

如果你想确定给定语言的最佳现有语言模型，或者想判断你的方法是否提高了给定语言的性能，最有效和可靠的方法是什么？从宏观上看，所有语言的答案都是一样的；然而，对于英语以外的语言（以及越来越多的汉语普通话），语言模型评估更为棘手，因为基准的数量可能更有限。

我将强调一些我认为最重要的考虑因素，特别是在选择基准方面。我还将讨论如何运行基准测试并以促进可复现性和对模型性能的可靠推断的方式报告结果。

关于基准可用性

正如我所提到的，对于大多数语言来说，可用的基准数量远少于英语。即使是次高资源语言，基准的可用性也急剧下降，如下图所示，来自 Wu et al. (2025)。因此，根据你所使用的语言，可能无法遵守所有这些最佳实践。

最佳实践

选择难度合适的任务

这看起来很明显，但我认为这实际上是一个不平凡的条件，尤其是对于低资源语言。许多涵盖多种语言的基准对于当前的模型来说过于简单。这部分是由于基准开发和模型评估之间的时间脱节。例如，HellaSwag 在 2019 年开发，当时 GPT-2 是 SOTA 模型。然而，它仍然被用于评估新模型。我们需要调整和更新基准，使其适用于当前模型。

过于简单的任务无法帮助模型选择，因为性能会达到上限。分数差异不足以提供关于哪个模型更好的信号。

最近发布的 MultiBLiMP 基准就是不一定符合许多模型标准的一个例子，该基准测试语法知识。在该论文的发布中，许多模型（包括非常小的模型）在大多数语言中都达到了 95% 以上的准确率。因此，MultiBLiMP 不一定能对模型选择提供太多帮助（特别是对于大于 1B 的模型），因为性能差异通常很小，并且可能不具有统计显著性。可能还有其他方式可以使用该基准，例如了解训练动态。

避免使用机器翻译的基准，尤其是在未经专家验证的情况下

机器翻译会给基准引入噪声。你尝试评估的语言资源水平越低，机器翻译引入的噪声就越多，因为翻译系统质量较差。如果你想比较跨语言的性能，这一点尤其重要。

例如，如果我们想使用 EU21 基准（该基准提供了 21 种欧盟语言的翻译等效基准），那么严格比较该基准中不同语言的性能是不明智的。以英语和爱沙尼亚语作为所代表语言的两个极端。英语是资源最丰富的语言，而爱沙尼亚语是资源最少的语言。如果模型在爱沙尼亚语中表现较低，可能是因为模型在爱沙尼亚语中表现较差，这可能是由于训练数据较少或分配给该语言的模型容量较少。但是，也有可能是因为机器翻译成爱沙尼亚语时包含错误或质量低于英语翻译。

因此，机器翻译的基准不能让我们对模型性能做出强有力的推断。相反，性能与机器翻译质量混淆在一起。

避免使用与人类偏好不相关的自动评估

对于摘要等开放式任务，通常会使用 ROUGE 或 BLEUScore 等自动评估指标。使用大型语言模型（LLM）裁判来评估摘要质量也越来越常见。例如，XLSum 是一个广泛使用的多语言摘要基准，它使用 ROUGE 作为评估指标。然而，最近的研究表明，所有这些指标都与人类偏好相关性很差。如果采用自动指标或 LLM 裁判，则需要对每种语言和领域进行广泛评估和对齐。

基准应具有文化适宜性并适应目标语言

即使有专家人工翻译，将基准翻译成另一种语言也可能不足以保证对该语言的有效评估。经过本地化而不仅仅是翻译的基准显示出与人类偏好更高的相关性。因此，例如，EU21 中 MMLU 的翻译版本尚未进行文化适应。针对中文的 CMMLU (CMMLU) 或针对韩语的 KMMLU (KMMLU) 等特定语言的 MMLU 变体已经过文化适应。GlobalMMLU 包含文化无关和文化特定的子集。后者将是符合此建议的基准示例。

使用与人类判断相关的任务和指标

有些任务似乎通常能更好地预测人类偏好。例如，这项研究发现 MGSM 比 MMLU 更能与人类判断强相关。在缺乏此类研究的情况下，选择与所需应用密切相关的基准非常重要。推理和代码生成任务的性能可能无法预测用于创意创作的模型。

综合考虑

显然，没有完美的基准，但希望这些建议有助于识别适合你正在评估的模型（或多个模型）的基准！

为了公平比较而进行实现

一旦你选择了基准，如何实现基准和报告结果就变得很重要。如果你正在评估的语言可用的基准较少，那么评估需要更加精确，因为每个基准在模型选择过程中都会被更重地加权。性能差异是否具有统计显著性很重要。由于实现中的微小差异导致的性能差异也很重要。

使用（并报告）置信区间

为了说明确定统计显著性的重要性，这里我们看到一次运行（上图）和十次运行（下图）的准确度。这导致对相对模型性能得出完全不同的结论。现在你可能更倾向于使用 GPT-4 Turbo，特别是考虑到成本差异。一旦你为你的用例或应用程序部署了模型，这可能会产生很大的影响。

使用一致且可复现的实现

实现中的微小差异，即使小到空格使用，也可能导致性能差异。LM Evaluation Harness 自动控制实现细节并提供标准误差。因此，使用 LM Eval Harness 意味着你甚至不必担心这些事情！

公平地报告评估结果

多语言大型语言模型（LLM）评估的另一个重要方面是分解多语言性能。仅报告所有语言的平均分数会掩盖哪些语言表现更差。对于某些应用程序，拥有较低的平均性能分数可能更可取，但能在不同语言之间实现更平衡的性能。如果存在少数“优先语言”，那么考虑这些语言的分数可能最为重要。

例如，在 MultiBLiMP 中，Llama 8B 和 Goldfish 模型在相同语言集上的平均准确率分别为 92.6% 和 93.8%。然而，从分数分布来看，Llama 的高性能语言较少，而性能相对较低的语言集则大得多。另一方面，Goldfish 模型有大量模型表现出色（但极高准确率的语言较少），并且性能较低的语言较少。所有这些在多语言背景下考虑候选模型时都极其重要。

展望新的评估

在思考如何开发新的评估时，我的首要任务是扩展流行任务的语言覆盖范围，同时牢记我上面讨论的最佳实践。特别是，这意味着不依赖机器翻译将现有（英语）基准适应新语言。在适当的情况下，将基准适应特定语言和文化的特征。

要做到这一点，只有通过大型国际合作才能实现。如果你有兴趣参与此类工作，请加入对所有人开放的 EleutherAI Discord。这是一个获取反馈和寻找合作者的好地方。在 #multilingual 频道中，我们正在开发新基准的构想，并为特定语言寻找贡献者。

此内容改编自我在 PyTorch Day France 2025 的演讲。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录评论