深入探索 Aya Expanse：推进多语言前沿

发布于 2024 年 10 月 24 日

在 GitHub 上更新

访客

访客

访客

访客

避免合成数据中的模型崩溃

通过全局偏好迭代改进

通过模型合并最大化性能

融会贯通

致谢

参考文献

这是 Cohere For AI 团队的客座博客文章。Cohere For AI 是 Cohere 的研究实验室，致力于解决复杂的机器学习问题。

随着 Aya Expanse 系列的发布，其中包括 8B 和 32B 参数模型，我们正在解决人工智能领域最紧迫的挑战之一：缺乏高性能的多语言模型，使其能够与单语言模型的能力相媲美。尽管人工智能取得了巨大进步，但模型在多种语言之间的性能仍然存在显著差距。Aya Expanse 是 C4AI 几年专注研究的成果——数据套利、多语言偏好训练、安全微调和模型合并。

这些综合突破带来了多语言领域新的最先进性能。我们使用一系列评估来评估我们的模型，其中包括 Arena-Hard-Auto 数据集（论文），并将其翻译成我们发布供他人使用的 23 种语言。在成对比较中，Aya Expanse 32B 的表现优于 Gemma 2 27B、Mistral 8x22B 和 Llama 3.1 70B（一个参数量是其两倍多的模型），为多语言性能树立了新的行业标准。我们还发布了 Aya Expanse 8B，其性能优于其参数类别中的领先开源模型，如 Gemma 2 9B、Llama 3.1 8B 和最新发布的 Ministral 8B，胜率从 60.4% 到 70.6% 不等。我们在难度较低的评估中观察到更大的收益。

我们将这两个模型作为开源权重发布给研究社区，希望能进一步加速多语言研究进展。在这篇博客文章中，我们分享了训练管道中每个关键算法组件背后的技术细节。

避免合成数据中的模型崩溃

合成数据——由专家或“教师”模型生成的数据，用于训练另一个模型——已成为大型语言模型（LLM）开发中日益重要的组成部分，特别是在模型训练耗尽现有数据源的情况下。然而，对于多语言数据，尤其是低资源语言，很少有好的教师模型示例，这给利用合成数据带来了额外的挑战。此外，最近的研究表明，过度依赖合成数据会导致模型崩溃。

在我们最近的工作中，我们证明这些限制可以通过“数据套利”（从一组教师模型中策略性地采样）来解决。这种方法具有重要意义，因为它挑战了传统上对单个教师模型生成合成数据的依赖。相反，*数据套利*利用了模型池之间的性能差异。尽管此技术适用于任何领域，但它特别适用于多语言环境，因为缺乏在所有语言中都表现出色的普遍有效教师模型带来了重大挑战。在创建高质量合成多语言数据集时，*多语言套利*通过利用多样化的模型池策略性地采样数据分布的不同部分，从而改进多语言生成。

我们首先针对各语言组训练一个模型池，然后使用一个*仲裁器*来评估并选择最佳生成结果。这里的仲裁器是一个内部奖励模型（RM），用于对模型生成的结果进行评分。在基于奖励的路由中，对于给定语言的每个提示，我们从模型池中的所有模型生成补全，并使用奖励模型对其进行评分。得分最高的补全被选为该提示的最终补全。我们的 8B 模型，即使在通过多语言套利训练的 SFT 阶段，其胜率相对于 Gemma 2 9B 也有超过 9.1% 的提升，与之前的 Aya 23 模型相比，这表明了这种方法在利用不同语言的各种模型优势方面的有效性。

通过全局偏好迭代改进

在监督微调之后，与人类偏好对齐是训练当今最先进 LLM 的关键一步。尽管被广泛采用，但众所周知，偏好训练在单语言设置中已经具有挑战性。在多语言设置中最大化偏好训练的收益带来了更多挑战。绝大多数现有偏好数据集都是纯英文的，而少数现有多语言偏好数据集通常质量不高。此外，已知同时建模多种不同语言是一个困难的优化问题，其中简单地优化某些语言的性能通常会导致其他语言的性能下降。

在《LHF 能说多种语言：解锁大型语言模型的多语言偏好优化》中，我们利用一种新颖的合成数据生成技术来构建高质量的多语言偏好数据对，方法是将高性能多语言 LLM 的语内补全与由较弱模型生成的、从英语翻译而来的低质量补全进行对比。这使得我们的模型避免生成通常包含不良人工制品（例如翻译不佳引入的人工制品）的低质量多语言补全。我们表明，这种方法在所有语言中都带来了实质性的性能提升，并且通常也为未包含在偏好训练数据中的语言带来了提升。

尽管这项工作还表明，使用在线数据进行偏好训练优于其离线变体，但在 Aya Expanse 的训练过程中，我们发现先使用离线数据进行偏好训练，然后使用在线数据进行偏好训练的组合优于单独的在线或离线训练。在第一个偏好训练阶段，我们使用仲裁阶段中奖励最高和最低的响应作为选定和拒绝的补全来训练数据，这使得 DPO 训练的第一个阶段是*离线*的。

在离线偏好训练之后，我们进行*在线*迭代 DPO，我们从上次迭代训练的模型中对每个提示进行多次在线生成，使用奖励模型对这些生成进行排名，然后进一步训练这些偏好对。对于这两个模型，我们重复这个过程 3 次迭代，因为我们发现超过 3 次迭代只会带来微小的收益，而代价是额外的重新调整参数（如正则化系数 (beta)），有时还会引入奖励作弊行为。总体而言，对于 Aya Expanse 8B，在经过仲裁训练的模型基础上，离线和在线偏好训练的结合，使得其与 Gemma 2 9B 相比，胜率额外增加了 7.1%。

通过模型合并最大化性能

在任何后期训练（以及预训练）流水线中，无论是单阶段（如 SFT）还是更复杂的多阶段优化流水线（如我们上述的流水线），选择正确的数据混合都是一个反复出现的问题。这个过程的复杂性需要投入大量精力来微调超参数和数据组合。合并多个模型是一种替代方法，可以以更低的总体计算成本实现复杂的多任务处理。在 Aya Expanse 中，我们直接基于我们最近的研究论文《混合数据还是合并模型？优化多样化多任务学习》的发现，并在套利阶段和偏好训练的每次迭代中应用合并。

在训练多个独立模型并旨在合并时，最大化检查点之间的多样性非常重要。然而，这应该与确保池中每个独立模型都达到高性能相平衡。为了平衡这些目标，我们通过训练针对不同语系的模型来最大化检查点之间的多样性。这利用了跨语言迁移，该迁移通常能提供显著的性能优势，同时确保语言差异在检查点之间提供足够的区分度。

直观地看，可以为每种语言单独训练一个模型然后进行合并，但这并不能达到我们从跨语言迁移中观察到的相同优势。为了提高合并的鲁棒性，我们在每个集群中包含了一些共享语言（这里是英语、西班牙语和法语）。在最终的方案中，我们使用了多个阶段的合并运行，这些运行在不同的数据集群以及同一运行中的检查点上进行训练。

除了加权线性平均外，我们还尝试了多种合并技术，即 SLERP、TIES-merging 和 DARE-TIES。然而，我们发现加权平均是最一致的方法。因此，我们在整个流水线中都使用了加权平均。有趣的是，我们观察到在 35B 规模下的合并收益远大于 8B 规模——高达 3 倍。这与最近的研究一致，后者表明合并在更大规模下更有效。

融会贯通

这些图表展示了我们的端到端后期训练流程，从而带来了前面讨论的逐步提升。回顾 Aya 模型系列从 Aya 101 和 Aya Collection 问世之初就突破了开源协作的界限，到现在结合了关键开放基础研究问题的稳步进展，为多语言性能树立了新标准，这确实令人感到特别。

致谢

这项工作离不开 Aya Expanse 核心团队：Madeline Smith、Marzieh Fadaee、Ahmet Üstün、Beyza Ermis、Sara Hooker、John Dang、Shivalika Singh、Arash Ahmadian、Daniel D'souza、Alejandro Salamanca、Aidan Peppin、Arielle Bailey、Meor Amer、Sungjin Hong、Manoj Govindassamy、Sandra Kublik。

同样，如果没有更广泛的 Cohere For AI 和 Cohere 团队，这项工作也无法完成。特别感谢 Acyr Locatelli、Adrien Morisot、Jon Ander Campos、Sara Elsharkawy、Eddie Kim、Julia Kreutzer、Nick Frosst、Aidan Gomez、Ivan Zhang。

还要特别感谢我们的研究社区——来自世界各地的 220 位语言大使，他们参与了此次发布。感谢 Sree Harsha Nelaturu、Bhavnick Minhas、Christopher Klamm、Isabella Bicalho Frazeto，他们贡献的笔记本可在模型 Hugging Face 卡片上获取。

特别感谢 Hugging Face 帮助促成这一切：Omar Sanseviero、Pedro Cuenca、Vaibhav Srivastav、Lysandre Debut、Aritra Roy Gosthipaty。

参考文献

更多博客文章

推出 SynthID Text

由 2024年10月23日 • 46

Open R1: 如何在本地使用 OlympicCoder 进行编码？

由 2025年3月20日 • 62

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论