推出 MamayLM,一款高效的尖端乌克兰语大型语言模型
我们正在发布 MamayLM,这是性能最佳的乌克兰语高效语言模型,在英语和乌克兰语方面都超越了所有同等规模的模型,同时与大10倍的模型持平或表现更优。
我们很高兴地宣布发布 MamayLM,这是一个针对乌克兰语的全新最先进大型语言模型(LLM)。它拥有90亿个参数,具有成本效益,可以在1个GPU上运行,但在乌克兰语和英语方面都表现出色。该模型具有强大的功能,在两种语言中都超越了同等规模的开源模型,同时与更大的模型持平或表现更优。MamayLM 是 INSAIT 和苏黎世联邦理工学院研究人员合作的成果。本博客文章的乌克兰语版本可在此处 查看。
MamayLM 是基于 Google 的 Gemma 2 9B 模型构建的,INSAIT 之前曾将其作为开发 BgGPT 2.0 系列模型 的基础,这些模型在 Google 的这篇博客文章 中有所介绍。我们遵循类似的“配方”,并在持续训练、合并和基准测试方面进行了一些改进,并添加了合成数据,从而打造了一个轻量、实用但非常能够理解和生成乌克兰语文本的新模型,同时还保留甚至提升了其基本能力。MamayLM 专为乌克兰语特点量身定制,是母语和文化细微差别的专家。它为在该模型基础上构建应用程序、整合到政府机构(特别是在需要保护数据隐私的场景下,因为该模型可以在本地运行)以及实现经济高效的个人使用提供了坚实的基础。
Gemma 2 在乌克兰语方面的适配
在 MamayLM 之前,我们成功地将 Gemma 2 系列模型专门用于保加利亚语,这得益于我们在语言迁移方面的研究 [1],并结合了 Gemma 2 已有的强大多语言能力。现在,我们应用了类似的数据整理、持续预训练和指令微调流程,并在各个方面进行了一些显著改进,以总共使用 750 亿个乌克兰语和英语文本标记来适配 Gemma 2 9B 到乌克兰语。
为了收集预训练数据,我们利用了公开可用的数据集,例如 FineWeb2、Malyuk、CulturaX 和乌克兰语 维基百科。这些数据集经过预处理和过滤,以确保数据的纯净性。我们采用精确和模糊去重来防止数据集之间的重叠,所有这些数据集都是通过网络抓取获得的。
在预训练期间,我们使用最佳拟合打包 [13] 以所需的上下文长度打包序列,在最小化干扰的情况下保持数据结构和连贯性。这种方法增强了上下文学习并提高了语言推理能力。为了防止灾难性遗忘,我们包含了一小部分以英语为中心的数据,例如英语 维基百科 和 Smoltalk [14]。
对于后期训练,我们提取了与乌克兰历史和文化相关的主题,从而能够利用更大模型的知识蒸馏生成乌克兰语问答对的合成数据集。我们还使用了基于大型语言模型的翻译流水线将特定领域的数据翻译成乌克兰语,从而提高了目标语言的数量和质量。
我们的指令微调数据集包含各种开源数据集,例如 Nemotron SFT 数据集、OpenCoder (OPC) SFT 数据集、Aya Collection 等。我们感谢乌克兰开源社区的重大贡献,特别是 Spivavtor、UAlpaca、UA-Squad、Ukrainian StackExchange 和 UA-Lawyer QA 的创建者,他们的贡献极大地提升了乌克兰语后期训练的潜力。
我们还应用了一种受层交换 [11] 启发的先进模型合并技术,以更精确地提取语言能力。此外,我们考虑了关于语言不平衡和模型合并的发现 [1,12],这些发现强调了数据混合比例对模型性能的影响。
英语和乌克兰语基准测试
我们对 MamayLM 进行了一系列标准英语基准测试、这些基准测试的乌克兰语翻译版本以及我们收集的乌克兰语特定基准测试。
- ZNO [8]:强制性测试乌克兰高中课程在乌克兰语和文学、历史、数学和地理方面的知识。
- Winogrande 挑战 [2]:测试世界知识和理解能力
- Hellaswag [3]:测试句子补全能力
- ARC Easy/Challenge [4]:测试逻辑推理能力
- TriviaQA [5]:测试常识知识
- GSM-8K [6]:解决高中数学多选题
- MMLU [9]:测试多主题知识
- IFEval [10]:测试指令遵循能力
我们接受了为仅限英语的基准测试寻找最佳翻译方法的挑战。尽管在这方面已经做了一些努力 [7],但我们发现其不够全面,乌克兰语翻译仍有改进空间。我们确定了基准翻译中的两个关键问题:(i) 翻译过程中问题和答案的分离,以及 (ii) 翻译质量严重依赖于少样本提示或额外的模型输出验证。为了解决这些问题,我们开发了一个翻译框架,该框架保留了问题和答案的上下文。它还采用多采样和翻译候选者评分来优化机器翻译质量和人工参与之间的平衡,确保最大效率。作为本次发布的一部分,我们将在 相应的 GitHub 仓库中发布所有乌克兰语基准测试。我们很快将发布关于我们翻译框架的更多详细信息。
乌克兰国家强制性考试评估
重要的是,如下图所示,MamayLM 在 ZNO(乌克兰国家)高中考试中取得了同等规模模型中的最高分,同时超越了许多更大的模型,包括 Gemma2 27B、Llama 3.1 70B 和 Qwen 2.5 72B。
与同等规模模型的评估
如下图所示,在所有基准测试中,MamayLM 的性能都优于所有同等规模的模型(高达 13B)。这得益于用于训练 MamayLM 的特定方法(上文提到),它在英语和乌克兰语的所有基准测试中都实现了这一点。
与更大模型的基准评估
我们还将 MamayLM 与当前最先进的大型语言模型进行了评估。令人印象深刻的是,我们的模型在各种基准测试中(包括乌克兰语特定上下文的基准测试)表现优于大8倍的模型,如下图所示。
生成性能与更大模型的比较
除了基准测试,我们还在500个复杂问题上评估了MamayLM的生成性能。结果表明,我们的模型在生成的乌克兰语文本的语言质量以及内容本身方面,都显著超越了更大的模型。为了避免偏差并获得最佳判断,我们使用了Gemini 2.0 Flash,它擅长乌克兰语并理解其文化和语言特点。
我们评估了模型在乌克兰语问答数据上的性能,我们的模型显示出与更大的模型以及 GPT-4o-mini 相比具有积极的性能。
MamayLM 的优势
在当前的技术格局中,对快速、适应性强且本地优化的解决方案的需求变得至关重要。作为一款 9B 模型,MamayLM 相对紧凑,并且在英语和乌克兰语中始终优于大 10 倍的模型。其在单个 GPU 上运行的能力实现了更快的适应、更低的运营成本和更简单的部署,使其特别适用于资源有限和需求不断变化的环境。
这为乌克兰本地企业和政府机构提供了显著优势,它们可以整合先进的人工智能技术,而无需通常与大型系统相关的过高成本或复杂技术要求。此外,该模型的双语能力支持其在教育和医疗等领域的应用,在这些领域,解决语言障碍可以产生有意义的影响。特别是,它通过增强关键领域的服务交付,帮助满足乌克兰的即时需求。
下载模型和基准测试
我们将在 HuggingFace 上提供 正常 版本和 量化 版本的 MamayLM,并附有详细的使用说明。
如果您使用了我们的模型,请考虑引用我们的工作。
@misc{MamayLM,
author = {Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin},
title = {MamayLM: An efficient state-of-the-art Ukrainian LLM},
year = {2025},
publisher = {INSAIT},
howpublished = {https://huggingface.co/blog/INSAIT-Institute/mamaylm}
}
更多关于 INSAIT
INSAIT 是世界一流的计算机科学与人工智能研究机构,隶属于保加利亚索非亚大学,位于保加利亚索非亚。INSAIT 成立于 2022 年,与瑞士苏黎世联邦理工学院和洛桑联邦理工学院合作创建。它是保加利亚的战略机构,由保加利亚政府在 10 年内提供约 1 亿美元的初始捐赠资助,并得到 SiteGround、Google、AWS、VMware 和其他大型科技公司约 1500 万美元的慷慨捐赠。INSAIT 是东欧首个此类中心,其结构与西方顶尖计算机科学和人工智能机构一致——它为杰出的终身制和终身教职员工、研究科学家、博士后、博士生和许多其他职位提供世界一流的薪酬和条件。目前,INSAIT 拥有来自 23 多个国家的研究人员,并在基础模型、安全人工智能、机器人、计算机视觉、量子计算、算法、信息安全以及其他关键领域开展研究。
联系我们
有关 MamayLM 的任何问题,请联系我们:contact@insait.ai。
参考文献
- [1] 通过模型合并缓解语言迁移中的灾难性遗忘,Anton Alexandrov、Veselin Raychev、Mark Niklas Mueller、Ce Zhang、Martin Vechev、Kristina Toutanova。在计算语言学协会发现:EMNLP 2024,第 17167–17186 页,美国佛罗里达州迈阿密。计算语言学协会。https://aclanthology.org/2024.findings-emnlp.1000
- [2] Winogrande:大规模对抗性 Winograd 图式挑战,Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, 和 Yejin Choi. Communications of the ACM, 64(9):99–106, 2021。
- [3] Hellaswag: 机器真的能完成你的句子吗?Rowan Zellers、Ari Holtzman、Yonatan Bisk、Ali Farhadi 和 Yejin Choi。https://arxiv.org/abs/1905.07830
- [4] 以为你已经解决了问答问题?试试 arc,ai2 推理挑战,Peter Clark,Isaac Cowhey,Oren Etzioni,Tushar Khot,Ashish Sabharwal,Carissa Schoenick,和 Oyvind Tafjord。https://arxiv.org/abs/1803.05457
- [5] Triviaqa:一个用于阅读理解的大规模远程监督挑战数据集,Mandar Joshi、Eunsol Choi、Daniel S Weld 和 Luke Zettlemoyer。https://arxiv.org/abs/1705.03551
- [6] 训练验证器以解决数学文字问题,Karl Cobbe、Vineet Kosaraju、Mohammad Bavarian、Mark Chen、Heewoo Jun、Lukasz Kaiser、Matthias Plappert、Jerry Tworek、Jacob Hilton、Reiichiro Nakano 等人。https://arxiv.org/abs/2110.14168
- [7] 全球 MMLU:理解和解决多语言评估中的文化和语言偏见。Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Sebastian Ruder, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker https://arxiv.org/abs/2412.03304
- [8] ZNO-Eval: 衡量乌克兰语大型语言模型的推理能力。Mykyta Syromiatnikov, Victoria Ruvinskaya, Anastasiya Troynina. https://arxiv.org/abs/2501.06715
- [9] 测量大规模多任务语言理解。Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt. 国际学习表征大会,2021。https://openreview.net/pdf?id=d7KBjmI3GmQ
- [10] 大型语言模型的指令遵循评估。Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou. https://arxiv.org/abs/2311.07911
- [11] 大型语言模型中零样本跨语言迁移的层交换。{Lucas Bandarkar 和 Benjamin Muller 和 Pritish Yuvraj 和 Rui Hou 和 Nayan Singhal 和 Hongjiang Lv 和 Bing Liu。第十三届学习表征国际会议,2025 年。https://openreview.net/forum?id=vQhn4wrQ6j
- [12] 语言不平衡在跨语言泛化中的作用:来自克隆语言实验的见解。Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag. https://arxiv.org/abs/2404.07982
- [13] Hantian Ding, Zijian Wang, Giovanni Paolini, Varun Kumar, Anoop Deoras, Dan Roth, 和 Stefano Soatto。2024 年。更少的截断改进了语言建模。在第 41 届国际机器学习会议(ICML'24)论文集,第 235 卷。JMLR.org,文章 439,第 11030–11048 页。
- [14] SmolLM2:当 Smol 变得庞大——小型语言模型的数据中心训练。Loubna Ben Allal、Anton Lozhkov、Elie Bakouch、Gabriel Martín Blázquez、Guilherme Penedo、Lewis Tunstall、Andrés Marafioti、Hynek Kydlíček、Agustín Piqueres Lajarín、Vaibhav Srivastav、Joshua Lochner、Caleb Fahlgren、Xuan-Son Nguyen、Clémentine Fourrier、Ben Burtenshaw、Hugo Larcher、Haojun Zhao、Cyril Zakka、Mathieu Morlon、Colin Raffel、Leandro von Werra 和 Thomas Wolf。https://arxiv.org/abs/2502.02737