Luth:小型语言模型的高效法语专业化
大型语言模型长期以来主要在英语语料库上进行训练。这种以英语为中心的偏见在实践中表现出来:例如,CroissantLLM报告称,所有公开可用的LLM在英语和非英语语言之间都存在巨大的性能差异。我们通过自己的基准评估证实了这一发现。即使是法语这种广泛使用的语言,在开源自然语言处理生态系统中仍然代表性不足,高质量数据集和专用模型相对较少。这些不平衡凸显了将强大的自然语言处理支持扩展到其他语言的迫切需求。认识到这些差距,近期欧洲的一些举措(例如OpenLLM-France)已经出现,旨在构建大型法语语料库和专用模型,这反映了对语言多样性日益增长的承诺。
在此背景下,我们推出了两款紧凑型、非推理型因果LLM,它们完全基于法语数据进行了指令调优:
我们还推出了Scholar数据集。Scholar 的创建旨在解决法语高质量科学资源匮乏的问题,它取材于法国高中毕业会考(Baccalauréat)和预科班(Classes Préparatoires (CPGE))的考试题目及详细解答,涵盖了广泛的学科。Scholar 和从多个公共来源收集的额外精选法语数据集相结合,形成了Luth-SFT数据集,这是一个多样化且高质量的语料库,旨在用于法语指令遵循的后期训练。通过将微调完全集中在法语指令和对话上,我们证实了专门针对资源较少的语言并不会必然损害整体能力。
通过将有针对性的微调与模型合并相结合,据我们所知,我们在这类模型上取得了多项法语基准测试的最新技术成果,同时保持了有竞争力的性能,甚至由于积极的跨语言迁移,在某些英语基准测试上还提高了结果。我们还在Github上公开了所有代码和资源,以支持可重现性和进一步研究。
动机
我们的工作证实,语言专业化可以在不损害跨语言能力的情况下实现。通过对模型进行微调并将其与基础版本合并,我们显著提高了目标语言的性能,同时保持甚至增强了英语能力。这一实验证实了模型合并在目标后训练和跨语言保留方面的潜力。
我们还旨在提供高质量的法语后期训练数据集,以解决目前该语言开源专业资源匮乏的问题。
评估
为了评估这些模型,我们使用了 LightEval。我们特别为法语基准添加了自定义任务,这些任务是 Math-500、MMLU、IFEval 或 GPQA-Diamond 等一些知名基准的翻译版本。我们还添加了一个补丁,用于在 LightEval 中添加推理和混合模型评估支持,目前该库尚未处理此功能。
数据混合
我们遵循了一个行之有效且高效的策略来构建数据集。由于缺乏开放的法语后期训练数据集,我们不得不创建自己的数据集。我们的重点是数学、常识和指令遵循。为了实现这一目标,我们从高质量的现有数据集(如 Tulu 3)开始,其中包括数学和指令遵循任务。
我们的方法如下:
- 将提示翻译成法语。
- 使用强大的多语言模型(在本例中主要是 Qwen3-32B)为这些提示生成新的答案。
我们还从 Hugging Face Hub 上公开可用的多语言数据集中提取了样本,包括 *smoltalk2*、*aya_dataset*、*croissantLLM* 和 *OpenHermes-fr*。我们进行了过滤,以确保数据质量并使其与我们的目标主题保持一致。
我们数据的一个显著子集包括从法国高中会考(**Baccalauréat**)和精英大学预科班(**Classes Préparatoires aux Grandes Écoles (CPGE)**)考试中抓取并重新格式化为对话风格的题目。这个名为Scholar的数据集主要关注数学、物理、计算机科学和一般科学知识。
通过结合所有这些精选样本,我们构建了Luth-SFT,一个高质量的法语后期训练数据集,包含大约 **3.38 亿个 token**。
训练
我们使用 Axolotl 框架和 DeepSpeed 进行分布式训练。训练包括对 Luth-SFT 数据集进行 3 个 epoch 的完全微调。对于这种规模的模型,完全微调比 LoRA 取得了更好的性能,并且成本不高。我们只根据助手的输出进行训练,学习率为 2e-5,使用余弦学习率调度器,批处理大小为 24(带有补丁)。
以下是我们的两个模型的训练损失
合并
我们使用 MergeKit 尝试了几种模型合并策略,以保留模型的英语能力。主要地,我们测试了 SLERP 和线性合并,并使用了不同的合并系数。对于 Luth-0.6B-Instruct,使用 70% 微调检查点的 SLERP 取得了最佳结果,而对于 Luth-1.7B-Instruct,使用 50% 的 SLERP 表现最佳。
令人惊讶的是,模型合并在某些法语和英语基准测试上的得分甚至优于专门微调的检查点和原始 Qwen3 基础模型。这些结果证实,模型合并是针对特定低资源语言进行目标后训练的强大而有效的方法。
基准测试结果
此方法产生了 **Luth-0.6B-Instruct** 和 **Luth-1.7B-Instruct**,它们在数学、指令遵循和一般知识方面,在同等规模的法语模型中名列前茅。这两个模型在英语基准测试中也保持了强大的性能,甚至在数学和一般知识方面超越了基础 Qwen3 模型。评估是在温度为 0 且非思维模式下进行的。
法语基准得分
基准测试 | Qwen3-0.6B | Qwen2.5-0.5B-Instruct | Luth-0.6B-Instruct |
---|---|---|---|
ifeval-fr | 44.45 | 22.18 | 48.24 |
gpqa-diamond-fr | 28.93 | 23.86 | 33.50 |
mmlu-fr | 27.16 | 35.04 | 40.23 |
math-500-fr | 29.20 | 10.00 | 43.00 |
arc-chall-fr | 31.31 | 28.23 | 33.88 |
hellaswag-fr | 25.11 | 51.45 | 45.70 |
基准测试 | Qwen3-1.7B | SmolLM2-1.7B-Instruct | Qwen2.5-1.5B-Instruct | Luth-1.7B-Instruct |
---|---|---|---|---|
ifeval-fr | 54.53 | 31.24 | 32.90 | 57.67 |
gpqa-diamond-fr | 26.90 | 21.83 | 28.93 | 38.58 |
mmlu-fr | 28.46 | 33.73 | 46.25 | 49.66 |
math-500-fr | 60.80 | 11.20 | 32.20 | 64.00 |
arc-chall-fr | 33.28 | 28.57 | 32.68 | 35.16 |
hellaswag-fr | 24.86 | 49.58 | 34.34 | 31.93 |
英语基准得分
基准测试 | Qwen3-0.6B | Qwen2.5-0.5B-Instruct | Luth-0.6B-Instruct |
---|---|---|---|
ifeval-en | 57.86 | 29.21 | 53.97 |
gpqa-diamond-en | 29.80 | 26.77 | 28.28 |
mmlu-en | 36.85 | 43.80 | 48.10 |
math-500-en | 45.00 | 31.80 | 47.80 |
arc-chall-en | 33.62 | 32.17 | 35.92 |
hellaswag-en | 42.91 | 49.56 | 46.96 |
基准测试 | Qwen3-1.7B | SmolLM2-1.7B-Instruct | Qwen2.5-1.5B-Instruct | Luth-1.7B-Instruct |
---|---|---|---|---|
ifeval-en | 68.39 | 48.24 | 39.93 | 65.80 |
gpqa-diamond-en | 31.82 | 24.75 | 30.30 | 31.82 |
mmlu-en | 52.74 | 50.27 | 59.81 | 60.19 |
math-500-en | 69.20 | 22.40 | 56.00 | 70.00 |
arc-chall-en | 36.09 | 42.32 | 41.04 | 42.24 |
hellaswag-en | 46.96 | 66.94 | 64.48 | 58.55 |
结论
我们的工作表明,通过结合细致的数据集策划和有针对性的指令调优,我们可以在像法语这样资源较少的语言中取得显著成果,而不会损失英语性能。通过公开我们的模型和数据集,我们旨在支持超越英语的多语言专业化方面的进一步研究。
此方法可应用于其他代表性不足的语言。使用有针对性的指令数据集、特定领域资源和模型合并有助于缩小全球许多语言的性能差距。