MamayLM,乌克兰语的尖端语言模型

社区文章 发布于 2025年4月23日

我们推出 MamayLM — 最有效的乌克兰语实用语言模型,其性能超越了所有同尺寸的英语和乌克兰语模型,甚至能够超越大十倍的模型。

我们很高兴地宣布发布 MamayLM — 一款针对乌克兰语的最新 LLM(大型语言模型)。凭借其 90 亿个参数,它在资源使用方面非常经济,可以在单个 GPU 上运行,同时在乌克兰语和英语中都保持高效。该模型展现了强大的能力,在两种语言中都超越了同等规模的开源模型,并且与更大的模型也能很好地竞争。MamayLM 是 INSAIT 和苏黎世联邦理工学院研究人员合作的成果。本博客的英文版本可在此处查看:此处

MamayLM 基于 Google Gemma 2 9B 模型构建,INSAIT 曾利用该模型开发了 BgGPT 2.0 系列模型,如 Google 博客 所述。我们遵循类似的方法,但在训练、模型合并、能力评估和合成数据使用方面进行了改进,创建了一个轻量级、实用但非常能够理解和生成乌克兰语文本的新模型,不仅保留甚至改进了基础模型的能力。MamayLM 针对乌克兰语的特殊性进行了调整,是母语和文化细微差别方面的专家。它是创建应用程序并将其集成到政府机构的强大基础——尤其是在数据隐私至关重要的情况下(因为如此小的模型可以在本地运行)——以及以低成本进行个人使用的理想选择。

Gemma 2 在乌克兰语中的应用

在创建 MamayLM 之前,我们通过在语言迁移 [1] 方面的研究以及 Gemma 2 已有的多语言能力,成功地将 Gemma 2 模型家族适应了保加利亚语。现在,我们应用了类似的数据收集、连续预训练和指令微调过程,并在各个方面进行了重要改进,以适应 Gemma 2 9B 到乌克兰语,总共使用了 750 亿个乌克兰语和英语文本标记。

为了在初始阶段收集训练数据,我们使用了公开可用的数据集,包括 FineWeb2MalyukCulturaX 和乌克兰语 Wikipedia。这些数据经过预处理和过滤,以确保纯净度。我们采用了精确和不那么严格的重复数据删除,以避免主要从互联网收集的数据集之间重复。

在初始训练期间,我们使用最佳拟合打包 [13] 方法来收集给定上下文长度的文本序列,从而在最小干扰的情况下保留数据结构和连贯性。这种方法改善了上下文学习并增强了语言推理能力。为了避免“灾难性遗忘”英语,我们加入了少量英语数据,包括英语 WikipediaSmoltalk [14]。

训练之后,我们提取了与乌克兰历史和文化相关的主题,从而通过从更强大的模型中蒸馏(传输)知识,创建了一个乌克兰语问答格式的合成数据集。我们还使用了我们自己开发的 LLM 框架将专业数据翻译成乌克兰语,这提高了乌克兰语数据的数量和质量。

初始学习数据集包括各种开放来源,例如 Nemotron SFT datasetOpenCoder (OPC) SFT datasetAya Collection 等。我们感谢乌克兰开源社区,特别是 SpivavtorUAlpacaUA-SquadUkrainian StackExchangeUA-Lawyer QA 的作者,他们极大地增强了乌克兰语模型训练的潜力。

我们还采用了受 Layer Swapping [11] 方法启发的特殊模型合并技术,以更好地提高我们模型的语言能力。此外,我们考虑了有关语言不平衡和模型合并的研究结果 [1,12],这些结果表明训练集中数据的混合比例如何影响模型的性能。

英语和乌克兰语的质量标准

我们评估了 MamayLM 在一系列标准英语基准测试、其乌克兰语翻译版本以及专门收集的乌克兰语测试上的性能。

  • ZNO [8]:乌克兰语和文学、历史、数学和地理的强制性知识测试 (ZNO)。
  • Winogrande challenge [2]:世界理解测试。
  • Hellaswag [3]:句子补全/补充。
  • ARC Easy/Challenge [4]:逻辑推理测试。
  • TriviaQA [5]:一般事实知识检查。
  • GSM-8K [6]:学校级别数学问题。
  • MMLU [9]:多学科知识检查。
  • IFEval [10]:指令遵循测试。

我们着手寻找翻译英语模型质量评估的最佳方法。尽管之前有过一些尝试 [7],但我们发现它们质量不足,因此可以大大改进。我们确定了两个主要问题:(1)翻译过程中问题与答案的分离;(2)翻译质量在很大程度上取决于少样本提示或模型输出的额外验证。为了解决这些问题,我们开发了一种翻译程序,该程序保留了问题和答案的上下文。它还使用多选和翻译候选排名,以在机器翻译质量和手动验证需求之间实现最佳平衡,从而最大限度地提高效率。我们将在 相应的 Github 项目中发布所有翻译成乌克兰语的测试,并随 MamayLM 一起发布。我们新的翻译系统的详细信息也将很快发布。

基于外部独立评估 (ZNO) 任务的质量验证

值得注意的是,如下方图表所示,MamayLM 在同尺寸模型中,在 ZNO (外部独立评估) 考试中表现出最高成绩,甚至超越了更大的模型,包括 Gemma2 27B、Llama 3.1 70B 和 Qwen 2.5 72B。

image/png

与同尺寸模型的比较

如下方图表所示,MamayLM 在所有基准测试中都超越了所有同尺寸(参数少于 130 亿)的模型。这包括所有英语和乌克兰语测试,这得益于上文所述的 MamayLM 特殊训练方法。

image/png image/png

与更大模型的基准评估

我们还评估了 MamayLM 与最先进的 LLM 模型的性能。令人印象深刻的是,我们的模型在各种基准测试中,包括那些纯粹乌克兰语上下文的测试,表现优于大 8 倍的模型,如下方图表所示。

image/png

与更大模型的生成性能比较

除了基准测试,我们还在 500 个复杂问题上评估了 MamayLM 的生成质量。结果显示,我们的模型在两个方面显著优于更大的 LLM:生成的乌克兰语文本的语言质量和答案的实质内容。为了避免偏见并获得最客观的评估,我们使用了 Gemini 2.0 Flash,这是一种在乌克兰语方面表现出色并理解其文化和语言特点的模型。

我们对乌克兰语问答 (QA) 进行了评估,我们的模型甚至比更大的模型(包括 GPT-4o-mini)表现更好。

image/png

MamayLM 的优势

在当今的技术环境中,对快速、适应性强和本地优化解决方案的需求变得尤为重要。MamayLM 是一个拥有 90 亿参数的模型,它相对紧凑,但在英语和乌克兰语中都稳定地超越了大十倍的模型。它能够在单个 GPU 上运行,确保了快速适应、低运营成本和易于使用,这使其特别适用于资源有限和需求快速变化的环境。

这为乌克兰本地企业和政府机构带来了显著优势,他们可以在不产生通常伴随大型系统而来的过高成本或复杂基础设施的情况下,集成先进的人工智能技术。此外,凭借其双语能力,该模型具有广泛的应用范围——特别是在教育和医疗保健领域,语言障碍的克服可能产生重大影响。尤为重要的是,它能够快速响应乌克兰的当前需求,提高关键领域服务的质量。

模型和基准的访问

我们将在 HuggingFace 平台上发布 标准版量化版 MamayLM,并提供有关其用于文本生成的详细说明。

如果您使用我们的模型,您可以引用我们的工作

@misc{MamayLM,
  author = {Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin},
  title = {MamayLM: An efficient state-of-the-art Ukrainian LLM},
  year = {2025},
  publisher = {INSAIT},
  howpublished = {https://huggingface.co/blog/INSAIT-Institute/mamaylm}
}

关于 INSAIT 的更多信息

INSAIT 是一个世界级的计算机科学和人工智能研究机构,隶属于索非亚大学,位于保加利亚索非亚。INSAIT 于 2022 年与瑞士苏黎世联邦理工学院和洛桑联邦理工学院合作成立。它是保加利亚的战略机构,获得了保加利亚政府十年约 1 亿美元的初始资金,以及 SiteGround、Google、AWS、VMware 和其他公司约 1500 万美元的慷慨支持。INSAIT 是东欧第一个按照西方顶尖计算机科学和人工智能机构模式构建的此类研究中心。它为教职员工提供世界一流的工作条件,并有永久合同、研究员、博士后、博士生和许多其他专家。目前,INSAIT 的研究人员来自全球 23 多个国家,从事基础语言模型、安全人工智能、机器人技术、计算机视觉、量子计算、算法、信息安全和其他关键领域的研究。

联系我们

有关 MamayLM 的所有问题,请通过电子邮件联系:contact@insait.ai

参考文献

  • [1] Mitigating Catastrophic Forgetting in Language Transfer via Model Merging, Anton Alexandrov, Veselin Raychev, Mark Niklas Mueller, Ce Zhang, Martin Vechev, Kristina Toutanova. 收录于:《计算语言学协会发现集:EMNLP 2024》,第 17167–17186 页,美国佛罗里达州迈阿密。计算语言学协会。https://aclanthology.org/2024.findings-emnlp.1000
  • [2] Winogrande: An adversarial winograd schema challenge at scale, Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Communications of the ACM, 64(9):99–106, 2021.
  • [3] Hellaswag: 机器真的能完成你的句子吗?Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. https://arxiv.org/abs/1905.07830
  • [4] 认为你解决了问答问题?试试 ARC,AI2 推理挑战赛,Peter Clark、Isaac Cowhey、Oren Etzioni、Tushar Khot、Ashish Sabharwal、Carissa Schoenick 和 Oyvind Tafjord。https://arxiv.org/abs/1803.05457
  • [5] Triviaqa: 一个用于阅读理解的大规模远程监督挑战数据集,Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. https://arxiv.org/abs/1705.03551
  • [6] 训练验证器以解决数学文字问题,Karl Cobbe、Vineet Kosaraju、Mohammad Bavarian、Mark Chen、Heewoo Jun、Lukasz Kaiser、Matthias Plappert、Jerry Tworek、Jacob Hilton、Reiichiro Nakano 等人。https://arxiv.org/abs/2110.14168
  • [7] 全球 MMLU:理解和解决多语言评估中的文化和语言偏见。Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Sebastian Ruder, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker https://arxiv.org/abs/2412.03304
  • [8] ZNO-Eval: 乌克兰大型语言模型推理能力基准测试。Mykyta Syromiatnikov, Victoria Ruvinskaya, Anastasiya Troynina. https://arxiv.org/abs/2501.06715
  • [9] 大规模多任务语言理解的衡量。Dan Hendrycks 和 Collin Burns 和 Steven Basart 和 Andy Zou 和 Mantas Mazeika 和 Dawn Song 和 Jacob Steinhardt。收录于:《国际学习表征会议,2021》,https://openreview.net/pdf?id=d7KBjmI3GmQ
  • [10] 大型语言模型指令遵循评估。Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou. https://arxiv.org/abs/2311.07911
  • [11] 大型语言模型中零样本跨语言迁移的层交换。{Lucas Bandarkar 和 Benjamin Muller 和 Pritish Yuvraj 和 Rui Hou 和 Nayan Singhal 和 Hongjiang Lv 和 Bing Liu。第十三届国际学习表征会议,2025 年。https://openreview.net/forum?id=vQhn4wrQ6j
  • [12] 语言不平衡在跨语言泛化中的作用:来自克隆语言实验的见解。Anton Schäfer, Shauli Ravfogel, Thomas Hofmann, Tiago Pimentel, Imanol Schlag. https://arxiv.org/abs/2404.07982
  • [13] Hantian Ding, Zijian Wang, Giovanni Paolini, Varun Kumar, Anoop Deoras, Dan Roth, and Stefano Soatto. 2024. 更少的截断改进语言建模。收录于:《第 41 届国际机器学习会议论文集 (ICML'24)》,第 235 卷。JMLR.org,文章 439,第 11030–11048 页。
  • [14] SmolLM2: 当 Smol 变大时 -- 小型语言模型的数据中心训练。Loubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf. https://arxiv.org/abs/2502.02737

社区

注册登录 发表评论