推出 EuroBERT:一款高性能多语言编码器模型

多语言自然语言处理的新篇章
近年来,大型语言模型在自然语言处理 (NLP) 领域占据主导地位,许多进展都集中在生成模型上。然而,双向编码器模型对于检索、分类和回归等任务仍然至关重要。考虑到这一点,我们推出了 EuroBERT,这是一个新的多语言编码器模型家族,旨在突破欧洲和广泛使用的全球语言的性能边界。
EuroBERT 针对广泛的应用进行了优化,并在模型架构、训练方法和数据集整理方面引入了多项创新。通过利用现代生成模型的见解,它提供了最先进的性能,同时保留了基于编码器架构的效率和鲁棒性。
EuroBERT 有何特别之处?
EuroBERT 在几个关键方面改进了传统的、多语言编码器模型,例如 XLM-RoBERTa 和 mGTE:
- 广泛的多语言训练:在涵盖 15 种语言的 5 万亿个 token 数据集上进行训练,确保了广泛的语言覆盖。
- 高级架构:融合了分组查询注意力、旋转位置嵌入和均方根归一化,以提高效率和性能。
- 更长的上下文支持:原生支持最长达 8,192 个 token 的序列,使其非常适合文档级任务。
- 专业知识:包含数学和编程语言数据集,以增强检索和推理能力。
训练方法
EuroBERT 遵循两阶段训练流程:
- 预训练:模型使用掩码语言建模 (MLM) 目标,从海量语料库中学习语言结构,利用高质量的多语言数据。
- 退火阶段:调整数据混合,并对训练进行微调以获得最佳下游性能。调整包括降低掩码比率和修改数据分布。
通过这种方法,EuroBERT 确保了在多个 NLP 任务中的高度适应性,同时保持了基于编码器架构的强大泛化能力。此外,对于那些对更精细细节感兴趣的人,我们在研究中进行了广泛的消融实验,以了解各种训练选择的影响。这些消融实验包括数据质量过滤、掩码比率、句子长度变化和多语言数据平衡的影响。有关这些实验和见解的更多细节可以在完整论文中找到。
性能亮点
EuroBERT 在各种多语言 NLP 任务中取得了最先进的成果。主要基准包括:
- 多语言检索 (MIRACL, Wikipedia, CC-News):在排名和文档搜索任务中优于现有模型。
- 分类 (XNLI, PAWS-X, Amazon Reviews):在自然语言推理和情感分析方面表现出有竞争力的准确性。
- 回归 (SeaHorse, WMT, SummEval):在文本相似度和评估任务中表现出色。
- 代码和数学理解:在代码搜索 (CodeSearchNet) 和数学推理 (MathShepherd) 中显示出强大的结果。
EuroBERT 用于长文本自然语言处理
EuroBERT 的突出特点之一是它能够有效处理长文本任务。它支持最长达 8,192 个 token 的序列,特别适合文档检索、摘要和扩展文本上的问答。
开放获取和可用性
为了促进研究和实际应用,我们正在开源整个 EuroBERT 家族,包括:
- 模型检查点(2.1 亿、6.1 亿和 21 亿参数)
- 用于复现的中间训练快照
- 训练框架和数据集组成
📝 论文:https://arxiv.org/abs/2503.05500
👀 模型:https://huggingface.co/EuroBERT
💻 训练代码 (AMD + NVIDIA - 仓库即将发布 😉):https://github.com/Nicolas-BZRD/EuroBERT
结论与未来工作
EuroBERT 代表了多语言编码器模型的重大进步,在多个任务中树立了新的基准。随着我们不断完善多语言 NLP,我们邀请社区探索、实验并在我们的工作基础上进行构建。
我们期待看到 EuroBERT 在研究和工业应用中的使用。如果您有任何问题或反馈,请随时与我们联系!
贡献者
该项目得益于 CentraleSupélec 的 MICS 实验室、Diabolocom、Artefact 和 Unbabel 之间的合作,以及 AMD 和 CINES 的技术支持。我们还要感谢法国政府通过 France 2030 计划(作为 ArGiMi 项目的一部分)和 DataIA 研究所的支持,他们的贡献促成了这项工作的完成。
最后,我们要感谢整个 EuroBERT 团队,没有他们,这一切都不可能实现:Nicolas Boizard、Hippolyte Gisserot-Boukhlef、Duarte M. Alves、André Martins、Ayoub Hammal、Caio Corro、Celine Hudelot、Emmanuel Malherbe、Etienne Malaboeuf、Fanny Jourdan、Gabriel Hautreux、João Alves、Kevin El-Haddad、Manuel Faysse、Maxime Peyrard、Nuno Miguel Guerreiro、Ricardo Rei、Pierre Colombo
Diabolocom, Artefact, MICS, CentraleSupélec, Université Paris-Saclay, Instituto Superior Técnico & Universidade de Lisboa (Lisbon ELLIS Unit), Instituto de Telecomunicações, Unbabel, Université Paris-Saclay, CNRS, LISN, INSA Rennes, IRISA, CINES, IRT Saint Exupéry, Illuin Technology, Université Grenoble Alpes, Grenoble INP, LIG, Equall, ISIA Lab
引用
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}