EuroLLM-9B

社区文章 发布于2024年12月2日
drawing

我们很高兴发布 EuroLLM-9B——迄今为止在欧洲开发的同等规模最先进的语言模型。EuroLLM-9B 采用尖端的 EuroHPC 基础设施构建,标志着我们致力于提供专为欧洲语言量身定制的先进多语言语言模型的使命迈出了重要一步。在这篇文章中,我们将概述该模型并重点介绍其基准性能。

请继续关注即将发布的技术报告,其中将详细介绍所有数据和模型开发细节、额外的检查点,以及未来发布更大、更强大模型的信息!

预训练模型:https://huggingface.co/utter-project/EuroLLM-9B
后训练模型:https://huggingface.co/utter-project/EuroLLM-9B-Instruct

引言

尽管开源大型语言模型 (LLM) 的质量正在迅速提高,但大多数模型以英语为中心,或仅支持有限的语言集,导致许多欧洲语言的服务不足。为了弥补这一差距,我们启动了 EuroLLM 项目,旨在创建一套完全开放的 LLM,能够理解和生成所有 24 种欧盟官方语言以及 11 种具有商业和战略重要性的国际语言的文本。

我们的旅程始于发布 EuroLLM-1.7B(参见 Martins 等人,2024),这是一款紧凑高效的模型,在机器翻译方面表现出色,并在通用基准测试中具有竞争力。今天,我们很高兴发布 EuroLLM-9B,它被评为同等规模中最佳的欧洲开源 LLM。

我们的工作并未止步于此——我们已经在开发更大、更强大的模型,以扩展 EuroLLM 家族。

支持的语言:保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语。

开发机构:Unbabel、里斯本高等理工学院、葡萄牙电信研究院、爱丁堡大学、Aveni、巴黎萨克雷大学、阿姆斯特丹大学、Naver Labs、索邦大学。

作者:Pedro Henrique Martins、João Alves、Patrick Fernandes、Nuno M. Guerreiro、Ricardo Rei、Duarte M. Alves、José Pombal、Amin Farajian、Manuel Faysse、Mateusz Klimaszewski、Pierre Colombo、Barry Haddow、José G. C. de Souza、Alexandra Birch、André F. T. Martins

结果

我们将在多个基准测试中展示 EuroLLM-9B 的性能,包括多语言通用基准测试(使用英语基准测试的翻译)、机器翻译和英语通用基准测试。

欧盟语言

image/png 表 1:开源 LLM 在多语言基准测试中的比较。Borda 计数对应于模型的平均排名(参见 (Colombo 等人,2022))。对于 Arc-challenge、Hellaswag 和 MMLU,我们使用的是 Okapi 数据集 (Lai 等人,2023),其中包括 11 种语言。对于 MMLU-Pro 和 MUSR,我们使用 Tower (Alves 等人,2024) 将英语版本翻译成 6 种欧盟语言。对于 WMT24 和 FLORES,我们分别对 3 和 46 种语言对的 Comet 分数取平均值。
* 由于没有预训练模型的公共版本,我们使用后训练版本对其进行了评估。

表 1 中的结果突出了 EuroLLM-9B 在多语言任务中优于其他欧洲开发模型的性能(Borda 计数为 1.0),以及其与非欧洲模型的强大竞争力,取得了与 Gemma-2-9B 相当的结果,并在大多数基准测试中优于其他模型。

英语

image/png

表 2:开源 LLM 在英语通用基准测试中的比较。
* 由于没有预训练模型的公共版本,我们使用后训练版本对其进行了评估。

表 2 中的结果表明 EuroLLM 在英语任务中表现出色,超越了大多数欧洲开发的模型,并与 Mistral-7B 的性能持平(获得相同的 Borda 计数)。

分词器

对于一个要在大量语言中高效运行的 LLM 来说,开发一个合适的分词器至关重要。因此,我们训练了一个词汇量为 128,000 个词片的分词器,主要关注欧盟官方语言。

image/png 图 1:使用 Mistral、LLaMa-3、Gemma 和 EuroLLM 分词器对部分 EuroLLM 语言获得的词元丰富度(词元/单词)。越低越好。

预训练

EuroLLM-9B 在 MareNostrum5 超级计算机上使用 400 块 Nvidia H100 GPU 进行了大约 4 万亿个词元的训练,这得益于 EuroHPC 的超大规模访问授权。训练过程被精心设计为三个关键阶段:

  1. 初始预训练(3.6 万亿词元)该阶段包括热身和恒定学习率阶段,在此期间模型在网络数据以及高质量数据源(如并行数据、维基百科、Arxiv、书籍和 Apollo 数据集)的混合上进行训练。这种均衡的混合有助于模型建立强大的多语言基础。
  2. 退火(4000 亿词元)在此阶段,学习率线性衰减,我们调整数据混合,以减少网络数据的比例,同时增加多语言内容。这种转变有助于模型完善其对不同语言和领域的理解。
  3. 退火至零(400 亿词元)在最后阶段,学习率线性衰减至零。在此阶段,数据混合被优化为更高质量,以提升模型的性能。

后训练

在后训练期间,我们调整 EuroLLM,使其成为一个能够处理多轮对话的指令遵循模型。我们只使用公开可用的数据集对模型进行微调,因为我们希望展示 EuroLLM 如何轻松适应您的用例。

该模型在翻译任务中表现出色,能够翻译所有欧盟官方语言,优于 Gemma-2-9B-IT 和 Aya-expanse-8B 等强大模型(Gemma-2-9B 和 Aya-23-8B 的指令调整版本)。此外,在通用基准测试中,就同等规模的欧盟制造模型而言,其指令遵循能力首屈一指。

致谢

我们感谢 EuroHPC 提供的计算资源,使我们能够训练 EuroLLM 模型,并感谢巴塞罗那超级计算中心 (BSC) 的支持。这项工作部分得到了欧盟“地平线欧洲”研究与创新行动 (UTTER,合同 101070631) 的支持。

参考文献

Duarte M. Alves, José Pombal, Nuno M. Guerreiro, Pedro H. Martins, João Alves, Amin Farajian, Ben Peters, Ricardo Rei, Patrick Fernandes, Sweta Agrawal, Pierre Colombo, José G.C. de Souza, Alexandra Birch, André F.T. Martins. Tower:用于翻译相关任务的开放式多语言大型语言模型。COLM 2024。

Pierre Colombo, Nathan Noiry, Ekhine Irurozki, Stéphan Clémençon. 哪些是最佳系统?NLP 基准测试的新视角。NeurIPS 2022。

Viet Lai, Chien Nguyen, Nghia Ngo, Thuat Nguyen, Franck Dernoncourt, Ryan Rossi, Thien Nguyen. Okapi:多语言指令微调大型语言模型,并结合人类反馈强化学习。EMNLP 系统演示 2023。

Pedro Henrique Martins, Patrick Fernandes, João Alves, Nuno M. Guerreiro, Ricardo Rei, Duarte M. Alves, José Pombal, Amin Farajian, Manuel Faysse, Mateusz Klimaszewski, Pierre Colombo, Barry Haddow, José G. C. de Souza, Alexandra Birch, André F. T. Martins. EuroLLM:面向欧洲的多语言语言模型。2024。

社区

很高兴看到更多欧洲 LLM!

有没有一个可以用来测试这个模型的 playground 或者类似的东西?

注册登录 发表评论