我们是否仍应该使用掩码语言模型来预训练编码器?
学习高质量的文本表示是广泛的自然语言处理(NLP)任务的基础。虽然编码器模型传统上依赖掩码语言建模(MLM)预训练,但最近的研究表明,使用因果语言建模(CLM)预训练的解码器模型也可以有效地用作编码器。在我们最新的论文中,我们探讨了CLM 的优势是由于目标本身还是由于模型大小或训练规模等混杂因素。
我们进行了一项对照研究:相同的模型大小、相同数量的预训练数据以及广泛的下游任务套件。我们评估了两种实际场景:从头开始预训练和持续预训练。这项设置使我们训练了 30 多个模型,并进行了超过 15,000 次微调评估,总计 11 万 GPU 小时。我们的结果表明,仅使用 MLM 并非最优:从 CLM 开始可以显著提高下游性能。
掩码语言模型还是因果语言模型?
我们研究了结合 CLM 和 MLM 目标的各种预训练策略的效果。从仅 CLM 开始,过渡到仅 MLM 设置,我们评估了五种混合分配:100% MLM、75%-25%、50%-50%、25%-75% 和 100% CLM。每种配置都在 12k、22k 和 42k 步的固定计算预算下进行训练。如上图所示,混合目标在下游任务中始终优于纯 MLM,尽管改进程度因任务和训练预算而异。
持续预训练
受混合训练策略在不同数据规模上表现强劲的启发,我们探索了持续预训练(CPT)设置。具体来说,我们想知道使用 MLM 目标来适应 CLM 预训练模型是否比从 MLM 预训练模型继续 MLM 训练更有效。我们比较了在相同数据上预训练的相同大小的 CLM 和 MLM 模型,并为 CPT 分配了固定的计算预算。为了控制计算成本,我们对 610M 模型进行了 22,000 步的 CPT,掩码比例为 40%。
如上所示,经过 MLM 适应的 CLM 模型始终能提供更好的下游性能。在标记分类(TC)任务上,CLM-only 模型已经表现良好,性能得以保持,与 MLM 的差距依然存在。对于问答(QA)和信息检索(IR),差距被有效缩小。在句子分类(SC)任务上,经过 MLM 适应的 CLM 模型显著优于仅使用 MLM 的基线。这尤其令人兴奋,因为它表明,通过从最先进的解码器开始,我们可以获得更好的编码器,为需要最少训练资源的廉价高效模型铺平道路!
结论
最后,基于这些强有力的经验证据,我们发现编码器模型不应仅通过掩码语言建模(MLM)目标进行预训练。特别是,我们的实验表明,通过后续的 MLM 训练来适应 CLM 模型,其性能始终优于从头开始的持续 MLM 训练,这表明两种训练策略之间存在微妙的相互作用。我们希望我们发布的资源能够促进该领域的未来工作,将我们的发现扩展到视觉-语言模型(VLM),其中许多是基于解码器的,从而可能增强它们的表示学习能力。
开放获取与可用性
为支持研究和实际应用,我们将本项目中使用的所有产物开源,包括:
📝 论文:https://arxiv.org/abs/2507.00994
🤖 模型:https://huggingface.co/MLMvsCLM
💻 训练代码:https://github.com/Nicolas-BZRD/EuroBERT/tree/MLM_vs_CLM
📊 评估代码:https://github.com/hgissbkh/EncodEval/tree/MLM_vs_CLM
贡献者
我们感谢所有团队成员,没有他们这项工作就不可能完成:Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, and Pierre Colombo。
我们还要感谢我们的机构和行业合作伙伴:Artefact、Diabolocom、Illuin Technology、Unbabel、MICS – CentraleSupélec – Université Paris-Saclay、里斯本高等技术学院和里斯本大学(Lisbon ELLIS Unit)以及电信研究所。
我们特别感谢法国政府通过法国2030计划,作为ArGiMi项目的一部分所提供的支持,以及CINES基础设施、DataIA研究所和Utter的贡献,这些都促进了这项工作的完成。