我们是否仍应该使用掩码语言模型来预训练编码器?

社区文章 发布于 2025 年 7 月 2 日

学习高质量的文本表示是广泛的自然语言处理(NLP)任务的基础。虽然编码器模型传统上依赖掩码语言建模(MLM)预训练,但最近的研究表明,使用因果语言建模(CLM)预训练的解码器模型也可以有效地用作编码器。在我们最新的论文中,我们探讨了CLM 的优势是由于目标本身还是由于模型大小或训练规模等混杂因素。

image/png

我们进行了一项对照研究:相同的模型大小、相同数量的预训练数据以及广泛的下游任务套件。我们评估了两种实际场景:从头开始预训练和持续预训练。这项设置使我们训练了 30 多个模型,并进行了超过 15,000 次微调评估,总计 11 万 GPU 小时。我们的结果表明,仅使用 MLM 并非最优:从 CLM 开始可以显著提高下游性能。

掩码语言模型还是因果语言模型?

image/png

我们研究了结合 CLM 和 MLM 目标的各种预训练策略的效果。从仅 CLM 开始,过渡到仅 MLM 设置,我们评估了五种混合分配:100% MLM、75%-25%、50%-50%、25%-75% 和 100% CLM。每种配置都在 12k、22k 和 42k 步的固定计算预算下进行训练。如上图所示,混合目标在下游任务中始终优于纯 MLM,尽管改进程度因任务和训练预算而异。

持续预训练

受混合训练策略在不同数据规模上表现强劲的启发,我们探索了持续预训练(CPT)设置。具体来说,我们想知道使用 MLM 目标来适应 CLM 预训练模型是否比从 MLM 预训练模型继续 MLM 训练更有效。我们比较了在相同数据上预训练的相同大小的 CLM 和 MLM 模型,并为 CPT 分配了固定的计算预算。为了控制计算成本,我们对 610M 模型进行了 22,000 步的 CPT,掩码比例为 40%。

image/png

如上所示,经过 MLM 适应的 CLM 模型始终能提供更好的下游性能。在标记分类(TC)任务上,CLM-only 模型已经表现良好,性能得以保持,与 MLM 的差距依然存在。对于问答(QA)和信息检索(IR),差距被有效缩小。在句子分类(SC)任务上,经过 MLM 适应的 CLM 模型显著优于仅使用 MLM 的基线。这尤其令人兴奋,因为它表明,通过从最先进的解码器开始,我们可以获得更好的编码器,为需要最少训练资源的廉价高效模型铺平道路!

结论

最后,基于这些强有力的经验证据,我们发现编码器模型不应仅通过掩码语言建模(MLM)目标进行预训练。特别是,我们的实验表明,通过后续的 MLM 训练来适应 CLM 模型,其性能始终优于从头开始的持续 MLM 训练,这表明两种训练策略之间存在微妙的相互作用。我们希望我们发布的资源能够促进该领域的未来工作,将我们的发现扩展到视觉-语言模型(VLM),其中许多是基于解码器的,从而可能增强它们的表示学习能力。

开放获取与可用性

为支持研究和实际应用,我们将本项目中使用的所有产物开源,包括:

📝 论文:https://arxiv.org/abs/2507.00994

🤖 模型:https://huggingface.co/MLMvsCLM

💻 训练代码:https://github.com/Nicolas-BZRD/EuroBERT/tree/MLM_vs_CLM

📊 评估代码:https://github.com/hgissbkh/EncodEval/tree/MLM_vs_CLM

贡献者

我们感谢所有团队成员,没有他们这项工作就不可能完成:Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, and Pierre Colombo。

我们还要感谢我们的机构和行业合作伙伴:Artefact、Diabolocom、Illuin Technology、Unbabel、MICS – CentraleSupélec – Université Paris-Saclay、里斯本高等技术学院和里斯本大学(Lisbon ELLIS Unit)以及电信研究所。

我们特别感谢法国政府通过法国2030计划,作为ArGiMi项目的一部分所提供的支持,以及CINES基础设施、DataIA研究所和Utter的贡献,这些都促进了这项工作的完成。

社区

请看我在这里的评论

https://huggingface.co/papers/2507.00994

用于标记分类。

问题在于,“CLM 优于 MLM”这一主要假设仅在使用 EuroBERT 架构时才成立,用于标记分类。

EuroBERT 在标记分类方面表现非常糟糕,XLM-R 或 DeBERTa 是更好的标记分类架构,这可以在 EuroBERT 论文的表 1 中看到(https://arxiv.org/abs/2503.05500)。

所以,是的,对于标记分类,我们仍然应该使用 MLM 来预训练编码器,只要它们不是基于 {Neo,Modern,Euro}BERT 的 :)

·
文章作者

你好,

感谢你的提问!

你说的完全正确,EuroBERT 架构不适合标记分类,这主要是因为它使用的分词器,正如我们在论文中解释的那样:https://arxiv.org/abs/2503.05500
然而,固定架构,即使它并非对所有任务都最优,也是我们实验设计的一个关键部分,因为它允许我们分离训练目标的影响。在这种受控设置下,我们展示了 CLM 在标记分类方面优于 MLM,并且我们相信这一发现具有普遍性。
至于架构的选择,RoBERTa 或 DeBERTa 等替代方案在检索方面表现明显不佳,而 EuroBERT 则成为了一个合理的整体折衷方案。

干杯!

“持续预训练”段落中有一个小错字:“...性能。在**文本**分类(TC)方面...”应为标记分类,因为在 Huggingface 自己的 Transformers 库中,文本分类更像是句子分类的同义词,这容易混淆。

谢谢!;)

·
文章作者

感谢指出!我们会立即修复

注册登录 发表评论