我们是否仍应该使用掩码语言模型来预训练编码器？

社区文章发布于 2025 年 7 月 2 日

Hippolyte Gisserot-Boukhlef

学习高质量的文本表示是广泛的自然语言处理（NLP）任务的基础。虽然编码器模型传统上依赖掩码语言建模（MLM）预训练，但最近的研究表明，使用因果语言建模（CLM）预训练的解码器模型也可以有效地用作编码器。在我们最新的论文中，我们探讨了CLM 的优势是由于目标本身还是由于模型大小或训练规模等混杂因素。

我们进行了一项对照研究：相同的模型大小、相同数量的预训练数据以及广泛的下游任务套件。我们评估了两种实际场景：从头开始预训练和持续预训练。这项设置使我们训练了 30 多个模型，并进行了超过 15,000 次微调评估，总计 11 万 GPU 小时。我们的结果表明，仅使用 MLM 并非最优：从 CLM 开始可以显著提高下游性能。

掩码语言模型还是因果语言模型？

我们研究了结合 CLM 和 MLM 目标的各种预训练策略的效果。从仅 CLM 开始，过渡到仅 MLM 设置，我们评估了五种混合分配：100% MLM、75%-25%、50%-50%、25%-75% 和 100% CLM。每种配置都在 12k、22k 和 42k 步的固定计算预算下进行训练。如上图所示，混合目标在下游任务中始终优于纯 MLM，尽管改进程度因任务和训练预算而异。

持续预训练

受混合训练策略在不同数据规模上表现强劲的启发，我们探索了持续预训练（CPT）设置。具体来说，我们想知道使用 MLM 目标来适应 CLM 预训练模型是否比从 MLM 预训练模型继续 MLM 训练更有效。我们比较了在相同数据上预训练的相同大小的 CLM 和 MLM 模型，并为 CPT 分配了固定的计算预算。为了控制计算成本，我们对 610M 模型进行了 22,000 步的 CPT，掩码比例为 40%。

如上所示，经过 MLM 适应的 CLM 模型始终能提供更好的下游性能。在标记分类（TC）任务上，CLM-only 模型已经表现良好，性能得以保持，与 MLM 的差距依然存在。对于问答（QA）和信息检索（IR），差距被有效缩小。在句子分类（SC）任务上，经过 MLM 适应的 CLM 模型显著优于仅使用 MLM 的基线。这尤其令人兴奋，因为它表明，通过从最先进的解码器开始，我们可以获得更好的编码器，为需要最少训练资源的廉价高效模型铺平道路！

结论

最后，基于这些强有力的经验证据，我们发现编码器模型不应仅通过掩码语言建模（MLM）目标进行预训练。特别是，我们的实验表明，通过后续的 MLM 训练来适应 CLM 模型，其性能始终优于从头开始的持续 MLM 训练，这表明两种训练策略之间存在微妙的相互作用。我们希望我们发布的资源能够促进该领域的未来工作，将我们的发现扩展到视觉-语言模型（VLM），其中许多是基于解码器的，从而可能增强它们的表示学习能力。

开放获取与可用性

为支持研究和实际应用，我们将本项目中使用的所有产物开源，包括：

📝 论文：https://arxiv.org/abs/2507.00994

🤖 模型：https://huggingface.co/MLMvsCLM

💻 训练代码：https://github.com/Nicolas-BZRD/EuroBERT/tree/MLM_vs_CLM

📊 评估代码：https://github.com/hgissbkh/EncodEval/tree/MLM_vs_CLM

贡献者

我们感谢所有团队成员，没有他们这项工作就不可能完成：Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, and Pierre Colombo。

我们还要感谢我们的机构和行业合作伙伴：Artefact、Diabolocom、Illuin Technology、Unbabel、MICS – CentraleSupélec – Université Paris-Saclay、里斯本高等技术学院和里斯本大学（Lisbon ELLIS Unit）以及电信研究所。

我们特别感谢法国政府通过法国2030计划，作为ArGiMi项目的一部分所提供的支持，以及CINES基础设施、DataIA研究所和Utter的贡献，这些都促进了这项工作的完成。

社区

stefan-it

7月2日

请看我在这里的评论

https://huggingface.co/papers/2507.00994

用于标记分类。

问题在于，“CLM 优于 MLM”这一主要假设仅在使用 EuroBERT 架构时才成立，用于标记分类。

EuroBERT 在标记分类方面表现非常糟糕，XLM-R 或 DeBERTa 是更好的标记分类架构，这可以在 EuroBERT 论文的表 1 中看到（https://arxiv.org/abs/2503.05500）。

所以，是的，对于标记分类，我们仍然应该使用 MLM 来预训练编码器，只要它们不是基于 {Neo,Modern,Euro}BERT 的 :)

hgissbkh

文章作者 7月2日

你好，

感谢你的提问！

你说的完全正确，EuroBERT 架构不适合标记分类，这主要是因为它使用的分词器，正如我们在论文中解释的那样：https://arxiv.org/abs/2503.05500。
然而，固定架构，即使它并非对所有任务都最优，也是我们实验设计的一个关键部分，因为它允许我们分离训练目标的影响。在这种受控设置下，我们展示了 CLM 在标记分类方面优于 MLM，并且我们相信这一发现具有普遍性。
至于架构的选择，RoBERTa 或 DeBERTa 等替代方案在检索方面表现明显不佳，而 EuroBERT 则成为了一个合理的整体折衷方案。

干杯！

TomSchelsen

7月4日

“持续预训练”段落中有一个小错字：“...性能。在**文本**分类（TC）方面...”应为标记分类，因为在 Huggingface 自己的 Transformers 库中，文本分类更像是句子分类的同义词，这容易混淆。

谢谢！;)

hgissbkh

文章作者 7月4日

感谢指出！我们会立即修复

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论