推出 EuroBERT:一款高性能多语言编码器模型

社区文章 发布于 2025 年 3 月 10 日

多语言自然语言处理的新篇章

近年来,大型语言模型在自然语言处理 (NLP) 领域占据主导地位,许多进展都集中在生成模型上。然而,双向编码器模型对于检索、分类和回归等任务仍然至关重要。考虑到这一点,我们推出了 EuroBERT,这是一个新的多语言编码器模型家族,旨在突破欧洲和广泛使用的全球语言的性能边界。

EuroBERT 针对广泛的应用进行了优化,并在模型架构、训练方法和数据集整理方面引入了多项创新。通过利用现代生成模型的见解,它提供了最先进的性能,同时保留了基于编码器架构的效率和鲁棒性。

EuroBERT 有何特别之处?

EuroBERT 在几个关键方面改进了传统的、多语言编码器模型,例如 XLM-RoBERTa 和 mGTE:

  • 广泛的多语言训练:在涵盖 15 种语言的 5 万亿个 token 数据集上进行训练,确保了广泛的语言覆盖。
  • 高级架构:融合了分组查询注意力、旋转位置嵌入和均方根归一化,以提高效率和性能。
  • 更长的上下文支持:原生支持最长达 8,192 个 token 的序列,使其非常适合文档级任务。
  • 专业知识:包含数学和编程语言数据集,以增强检索和推理能力。

训练方法

EuroBERT 遵循两阶段训练流程:

  1. 预训练:模型使用掩码语言建模 (MLM) 目标,从海量语料库中学习语言结构,利用高质量的多语言数据。
  2. 退火阶段:调整数据混合,并对训练进行微调以获得最佳下游性能。调整包括降低掩码比率和修改数据分布。

通过这种方法,EuroBERT 确保了在多个 NLP 任务中的高度适应性,同时保持了基于编码器架构的强大泛化能力。此外,对于那些对更精细细节感兴趣的人,我们在研究中进行了广泛的消融实验,以了解各种训练选择的影响。这些消融实验包括数据质量过滤、掩码比率、句子长度变化和多语言数据平衡的影响。有关这些实验和见解的更多细节可以在完整论文中找到。

性能亮点

EuroBERT 在各种多语言 NLP 任务中取得了最先进的成果。主要基准包括:

  • 多语言检索 (MIRACL, Wikipedia, CC-News):在排名和文档搜索任务中优于现有模型。
  • 分类 (XNLI, PAWS-X, Amazon Reviews):在自然语言推理和情感分析方面表现出有竞争力的准确性。
  • 回归 (SeaHorse, WMT, SummEval):在文本相似度和评估任务中表现出色。
  • 代码和数学理解:在代码搜索 (CodeSearchNet) 和数学推理 (MathShepherd) 中显示出强大的结果。

image/png

image/png

EuroBERT 用于长文本自然语言处理

EuroBERT 的突出特点之一是它能够有效处理长文本任务。它支持最长达 8,192 个 token 的序列,特别适合文档检索、摘要和扩展文本上的问答。

image/png

开放获取和可用性

为了促进研究和实际应用,我们正在开源整个 EuroBERT 家族,包括:

  • 模型检查点(2.1 亿、6.1 亿和 21 亿参数)
  • 用于复现的中间训练快照
  • 训练框架和数据集组成

📝 论文:https://arxiv.org/abs/2503.05500

👀 模型:https://huggingface.co/EuroBERT

💻 训练代码 (AMD + NVIDIA - 仓库即将发布 😉):https://github.com/Nicolas-BZRD/EuroBERT

结论与未来工作

EuroBERT 代表了多语言编码器模型的重大进步,在多个任务中树立了新的基准。随着我们不断完善多语言 NLP,我们邀请社区探索、实验并在我们的工作基础上进行构建。

我们期待看到 EuroBERT 在研究和工业应用中的使用。如果您有任何问题或反馈,请随时与我们联系!

贡献者

该项目得益于 CentraleSupélec 的 MICS 实验室、Diabolocom、Artefact 和 Unbabel 之间的合作,以及 AMD 和 CINES 的技术支持。我们还要感谢法国政府通过 France 2030 计划(作为 ArGiMi 项目的一部分)和 DataIA 研究所的支持,他们的贡献促成了这项工作的完成。

最后,我们要感谢整个 EuroBERT 团队,没有他们,这一切都不可能实现:Nicolas Boizard、Hippolyte Gisserot-Boukhlef、Duarte M. Alves、André Martins、Ayoub Hammal、Caio Corro、Celine Hudelot、Emmanuel Malherbe、Etienne Malaboeuf、Fanny Jourdan、Gabriel Hautreux、João Alves、Kevin El-Haddad、Manuel Faysse、Maxime Peyrard、Nuno Miguel Guerreiro、Ricardo Rei、Pierre Colombo

Diabolocom, Artefact, MICS, CentraleSupélec, Université Paris-Saclay, Instituto Superior Técnico & Universidade de Lisboa (Lisbon ELLIS Unit), Instituto de Telecomunicações, Unbabel, Université Paris-Saclay, CNRS, LISN, INSA Rennes, IRISA, CINES, IRT Saint Exupéry, Illuin Technology, Université Grenoble Alpes, Grenoble INP, LIG, Equall, ISIA Lab

引用

@misc{boizard2025eurobertscalingmultilingualencoders,
      title={EuroBERT: Scaling Multilingual Encoders for European Languages}, 
      author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
      year={2025},
      eprint={2503.05500},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.05500}, 
}

社区

为什么这些模型的训练只涉及到这么少的语言?您认为选择这种数据混合是为了“创建一个涵盖广泛字母和文化的欧洲及使用最广泛的语言语料库”。
但是,当您不包括任何拥有大量高质量数据集的北欧语言时,其他字母的关联性何在?

在这种情况下,前缀“Euro”似乎很奇怪。您只选择了一小部分语言,所以请相应地命名。
引用 EuroEval 也会很有意义 https://euroeval.com/leaderboards/

·

我们正在开发下一个模型,它将涵盖所有欧洲语言。使用有限数量的语言训练前一个模型帮助我们更好地理解它们在训练期间的分布以及多语言的弊端,同时最大限度地提高了覆盖人群。

我们还发布了代码库,并期待看到社区添加更多语言 🤗

很棒的工作!自从 ModernBERT 发布以来,我一直在寻找这样的多语言模型。期待看到这些模型在 MTEB 上进行评估。这已经计划好了吗?

·

@CorentinAmbroise ,我们目前正在研究建模文件,以添加执行 MTEB 基准所需的各种任务。我们希望尽快实现它。

我们也应该在表 1 中看到 ModernBERT。将其包含在表 2 中,但不包含在表 1 中,这让我对表 1 的指标产生了疑问。

·

我大胆猜测:ModernBERT 不打算做成多语言模型?或者至少还没有发布。但无论如何都很有趣:D 官方模型只支持英语,目前还没有发布多语言的这种架构模型。

注册登录 以评论