🥐CroissantLLM:一个真正双语的法英语言模型
我们很高兴地推出 CroissantLLM,一个虽小但功能强大的13亿参数语言模型,它在3万亿个token上进行训练,并且是完全开放和真正双语的!我们的目标是为研究和工业界带来一个高性能、完全开源的双语模型,该模型可以在消费级本地硬件上快速运行。我们的方法植根于透明度,除了模型和各种检查点,我们还发布了新的高质量法文数据集,这些数据集来源于法律、行政、文化、商业、科学和翻译数据,以及FrenchBench,一个用于评估LLM法文性能的新基准!
数据
大多数最新模型主要在英文语料库上进行训练,导致其他语言的性能下降,并产生以英文为中心的文化偏见。通过 CroissantLLM,我们旨在训练一个模型,其中英文不再是主导语言,并努力实现英文和法文数据1:1的比例!
挑战之一是收集足够数量的高质量法文数据。我们从多个不同来源收集、过滤和清理数据,以涵盖各个领域(法律、行政、文化、科学等),或涵盖不同的文本模式(语音转录、电影字幕、百科全书、论坛、网页等)……所有收集到的数据都在技术报告中明确列出,均属于开放许可,并与项目的其余部分一起共享。
我们总共收集了超过3030亿个单语法文数据(1.3 TB),以及360亿个高质量法英翻译数据,并将其与英文和代码数据进行整合!我们构建最终的3万亿个token数据集,经过上采样后,确保法文和英文数据量相等。
作为参考,在3万亿个token上训练一个LLM是巨大的!这比Llama2模型训练期间看到的token数量还要大,几乎是Bloom模型训练量的10倍,这使得CroissantLLM成为迄今为止在最多法文数据上训练过的模型!
模型
CroissantLLM 是一个13亿参数模型,采用 Llama 模型架构。选择这种模型大小的原因在于认识到,模型广泛采用的最大瓶颈是模型在消费级硬件上运行速度慢。事实上,从 HuggingFace 的下载量来看,下载量最大的模型并不是性能最好的(Llama2-70B,Mixtral 8x7B),而是那些更小、更易于部署和微调的模型(Llama2-7B,Mistral 7B)。
凭借其1.3B的模型大小,CroissantLLM能够在低端GPU服务器上极快地运行,实现高吞吐量和低延迟,甚至可以在CPU或移动设备上以不错的速度运行!
当然,权衡在于 CroissantLLM 不会像大型模型那样在推理、数学、编码方面展现出相同的通用能力,但它将非常适用于更具体的工业应用、翻译,甚至是聊天功能,在这些场景中,并不总是需要大型模型!
基准
为了评估模型在英语之外的性能,团队引入了 FrenchBench,这是一个新颖的基准,包含各种分类和生成任务,以评估 LLM 在法语中的性能。FrenchBench Gen 包括标题生成、摘要、问题生成和问答等任务,这些任务依赖于高质量的法语问答数据集 FQuaD。FrenchBench 的多项选择部分侧重于推理、事实知识和语言能力。
CroissantLLM 是法语领域中同等大小性能最佳的模型,在大多数任务上,其性能甚至优于大三倍的模型(Bloom 3B)。
我们还在英文基准上评估了模型,其性能与同等大小的最佳模型持平或超越!
应用
目前,我们只讨论了基础模型!然而,现在已经明白基础模型只是大多数现代LLM系统的基础,为了提取最佳性能,进行第二阶段训练,即监督微调,非常重要!我们对 CroissantLLM 进行了聊天数据微调,包括一些 ChatGPT 交互,并评估了 CroissantLLMChat 在各种法语和英语任务(如 MT-Bench、翻译、法语冷知识)上的能力。
MT-Bench 旨在评估 LLM 在八个领域的能力。CroissantLLMChat 在法语理解任务(如写作和角色扮演)上表现出色,超越了相同大小的模型。它还在 STEM 和人文学科方面展现出良好的常识。
这项工作试图解决的一个问题是,双语数据训练是否不仅能提升模型在另一种语言上的理解和写作能力,还能为模型赋予新的知识和不同的文化偏见。我们通过一项法国冷知识任务来评估法国文化知识,该任务包括用英语提问与法国相关的话题。法国冷知识任务的结果表明,在非常大的语料库上进行预训练能够显著提高知识能力。
以1:1的比例训练法语和英语数据,以及平行数据的好处,也可以在翻译任务中体现出来。事实上,CroissantLLM在少样本设置中优于Llama和Mistral 7B等大型模型,并且与同等大小的最先进专业翻译模型NLLB 1.3B不相上下,同时保持其通用聊天能力。
透明度
最先进的模型,无论是专有模型还是开源权重模型,通常都由资金雄厚的公司设计和训练,这些公司旨在通过保密其训练数据组合和策略来保持其护城河,从而阻碍了该领域其他研究人员充分研究和理解这些模型的能力。
此外,关于谁拥有用于训练这些语言模型的数据的争议仍在持续,法律影响也日益突出。最近的政治讨论,例如欧盟人工智能法案和美国参议院听证会,都强调了在人工智能开发中提高透明度的日益增长的需求,以确保法律合规性并建立用户信任。
CroissantLLM 项目从一开始就将透明度纳入考量。我们通过发布数据、模型、训练过程以及用于整理数据和训练模型的所有代码,验证了 FMTI 框架上81%的透明度标准,远远超过了大多数开放倡议的得分。
科学
CroissantLLM及其相关成果不仅是一个高性能模型,还旨在支持多语言语言模型的进一步研究,理解预训练数据对内部知识的影响,以及模型在远超Chinchilla最佳阈值下训练的动态。这将促成关于模型记忆和双语语言模型分离能力的更多出版物。
链接
模型、数据集、训练代码、评估基准和数据都是完全开源的。
CroissantLLM 也能在低端移动设备上运行,我们很快就会发布 APK!
致谢
这项工作是学术界和工业界合作伙伴的合作成果。在学术方面,核心作者隶属于 CentraleSupélec(巴黎萨克雷大学)和里斯本高等技术学院,其他贡献者与索邦大学和伦敦帝国理工学院相关。在工业方面,作者分别获得了 Illuin Technology(巴黎)、Unbabel(里斯本)、Equall(纽约、里斯本、巴黎)和 Diabolocom(巴黎)的资助。训练计算主要通过 GENCI IDRIS 运营的 Jean Zay 超级计算机获得,计算资助号为 2023-AD011014668R1。