他们说这不可能实现
训练大型语言模型需要受版权保护的数据,直到不再需要。今天,我们发布了 Pleias 1.0 模型,这是一个完全开源的小型语言模型家族。Pleias 1.0 模型包括三个基础模型:350M、1.2B 和 3B 参数。它们具有两个专门用于知识检索的模型,在多语言检索增强生成方面表现出前所未有的性能,分别是 Pleias-Pico(350M 参数)和 Pleias-Nano(1.2B 参数)。
这些是首批完全基于开放数据训练的模型,即不受版权保护或在许可协议下发布的数据。它们是首批完全符合欧盟人工智能法案的模型。事实上,Pleias 为安全性和开放性树立了新标准。
我们的模型
- 多语言,为多种欧洲语言提供强力支持
- 安全,在毒性基准测试中显示最低结果
- 对于关键任务(如知识检索)性能优异
- 能够在消费级硬件上高效本地运行(仅限 CPU,无需量化)
Pleias 1.0 模型通过自定义分词器开发和高质量多语言数据整理实现了强大的多语言性能。我们展示了我们的模型在语言一致性方面是同类最佳的。Pico 模型(350M)是其权重类别中第一个具有如此广泛语言覆盖的模型。这些模型完全支持的语言包括英语、法语、西班牙语、德语、意大利语、荷兰语、拉丁语和葡萄牙语。
Pleias 1.0 系列体现了针对最终应用程序的专用小型语言模型的新方法:紧密型模型。我们在预训练过程中实施了一系列想法和解决方案,从而产生了一个节俭而强大的语言模型,专门针对进一步的 RAG 实现进行了优化。我们发布了两款为检索增强生成 (RAG) 进一步训练的紧密型模型:Pleias-pico-350m-RAG 和 Pleias-nano-1B-RAG。这些模型设计为在本地实现,因此我们优先考虑了节俭的实现。由于我们的模型很小,即使在 RAM 有限的设备上也能流畅运行。
为了实现这一点,我们开始构建一个新的预训练生态系统,该系统完全基于开源工具。我们与 TractoAI 等开源人工智能行业领导者以及 HuggingFace 合作并获得了他们的支持。
训练数据
我们正在摆脱网络存档的标准格式。相反,我们使用由不受版权保护和许可数据组成的新数据集,即 Common Corpus。为了创建此数据集,我们必须开发一系列工具来收集、生成和处理预训练数据。
数据预处理
我们创建了自定义数据处理工具。我们训练了一个小但可靠的 OCR 校正模型,能够大规模校正数字化错误,例如校正间距问题、替换不正确的单词以及修复损坏的文本结构。它足够小,可以单独在 CPU 上运行。该模型和其他 OCR 校正工具可在 HuggingFace 上获取。
我们还开发了专门的管道来处理有毒和有害内容。由于许多现有工具与我们的多语言数据(包含历史文本和 OCR 错误)配合不佳,我们训练了一个自定义毒性分类器,用于删除有关少数群体有害语言,而不会过度过滤我们的语料库。我们的 分类器 可在 HuggingFace 上获取,有关该程序的更多详细信息,请参阅完整论文。
合成数据生成
为了补充我们的语料库,我们使用允许输出重用的模型合成了 30B+ 个单词。我们的合成设计以保持语言和文化多样性的必要性为指导。本着这种精神,对于我们的 1B 模型,我们通过从 OpenAlex 中提取约 100B 个高质量多语言数据来扩充我们的训练集。使用集成 YOLO 微调的自定义处理管道,我们下载并处理了超过 10M 个 PDF。
然后,我们构建了一个合成数据管道,从后处理的种子文本中生成面向知识检索的指令。我们使用提取的 OpenAlex 数据集和几个经过微调的大型模型,生成了数十亿个 RAG/Instruct 格式的训练令牌,这依赖于基于 Map-Reduce 的 TractoAI 方法。
模型训练
预训练代码依赖于 HuggingFace 库 Nanotron。我们以 yaml 文件的形式提供了完整的设置,作为我们发布的一部分。Pleias 1.0 模型的基础 transformer 模型,完全从头开始预训练,采用类似于 Llama 和 GPT-Neox 的架构,以便于部署和推理。
pico(350M)和 base(3B)模型在 Jean Zay 超级计算机上进行训练,获得了 #GC011015451 计算授权,作为 Grand Challenge 的一部分。我们的 nano(1.2B)模型是与 TractoAI 合作开发的,TractoAI 是一个无服务器 AI 平台,用于大规模运行数据和计算密集型工作负载。TractoAI 构建在强大的开源 YTsaurus 技术之上。为了在其上工作,我们与 TractoAI 团队一起进行了多项调整。
- 我们将预分词的预训练数据转换为 TractoAI 表格,这些表格可高效存储分词序列批次,
- 为了在 Nanotron 中使用分词数据表,我们创建了一个数据集适配器,并添加了相应的配置选项,
- 我们还将所有文件系统操作与 TractoAI 命令进行了适配,包括检查点保存
- 最后,我们使用
tractorun
框架以自动容错的方式部署和协调分布式训练过程
使用二氧化碳排放计算器,我们确定对于两个较小的模型,我们的排放量远低于同等大小的模型,例如 OpenELM,其 300M 模型在训练期间产生了相当于 1.5 吨二氧化碳(tCO2eq)的碳排放,其 1.1B 模型产生了约 5.5 tCO2eq 的碳排放。我们的模型产生的排放量比其 Llama 3.2 同类模型少几个数量级。
# GPU | GPU 类型 | 训练时间(天) | Pleias 碳排放量(tCO2eq) | OpenELM (tCO2eq) | Llama 3.2 (tCO2eq) | |
---|---|---|---|---|---|---|
Pleias 1.0 pico (350M) | 64 | H100 | 1.92 | 0.5 | 1.5 | - |
Pleias 1.0 nano (1B) | 192 | H100 | 5 | 4 | 5.5 | 107 |
Pleias 1.0 base (3B) | 192 | H100 | 20 | 16 | 7 | 133 |
自定义模型评估
小型模型的评估充满了问题。最流行的通用基准不适合评估小型模型。相反,我们开发了有针对性的基准来评估对我们所需下游应用程序至关重要的关键能力。我们主要关注的是确保我们的模型
- 在 RAG 任务中实现令人印象深刻的性能
- 提供可靠的多语言性能
- 不生成有毒或有害文本
RAG 性能
最后,我们评估了 Pico 和 Nano 模型在 RAG 任务上的性能。由于现有基准主要限于英语,我们开发了一个自定义多语言 RAG 基准。我们合成生成了查询和少量文档。为了评估,我们用查询和文档提示模型。然后,我们与 GPT-4o 作为裁判进行了一对一的 ELO 锦标赛。我们发布了我们比较的所有模型的提示和生成。我们的 nano (1.2B) 模型优于 Llama 3.2 1.1B 和 EuroLLM 1.7B。我们的 pico (350M) 模型优于其权重类别中的其他模型,如 SmolLM 360M 和 Qwen2.5 500M,以及更大的模型,如 Llama 3.2 1.1B 和 EuroLLM 1.7B。
排序 | 模型 | ELO |
---|---|---|
1 | Qwen2.5-Instruct-7B | 1294.6 |
2 | Llama-3.2-Instruct-8B | 1269.8 |
3 | Pleias-nano-1.2B-RAG | 1137.5 |
4 | Llama-3.2-Instruct-3B | 1118.1 |
5 | Qwen2.5-Instruct-3B | 1078.1 |
6 | Pleias-pico-350M-RAG | 1051.2 |
7 | Llama-3.2-1B-Instruct | 872.3 |
8 | EuroLLM-1.7B-Instruct | 860.0 |
9 | SmolLM-360M-Instruct | 728.6 |
10 | Qwen2.5-0.5B-Instruct | 722.2 |
11 | SmolLM-1.7B-Instruct | 706.3 |
强大的多语言性能
我们关注的一个关键特征是多语言模型在生成另一种语言的文本时倾向于切换到英语。我们评估了各种模型在生成多种欧盟语言(特别是法语、德语、荷兰语、葡萄牙语和波兰语)文本时避免切换语言的程度。我们发布了我们的评估脚本。我们发现 Pleias 模型优于其他领先的开放模型。在 300M 参数权重类别中,性能尤其令人印象深刻,仅略逊于 Pleias 3B 的性能。两种 Pleias 模型都优于我们测试过的所有其他模型。我们将其部分归因于我们的自定义分词器。
模型 | Pleias 350M | SmolLM 360M | Pleias 1.2B | EuroLLM 1.7B | Pleias 3B | SmolLM 2B | Llama-3.2 3B | Qwen-2.5 3B |
---|---|---|---|---|---|---|---|---|
语言依从性比例 (↑) | 89.8% | 65.6% | 90.4% | 86.9% | 90.7% | 70% | 71.1% | 82.3% |
缓解毒性
毒性生成也令人担忧,特别是在合规性方面。欧盟人工智能法案实践准则的初稿强调这是评估的关键方面,对合规性至关重要。由于许多基准侧重于评估安全调整模型,我们开发了自己的基准,以公平地评估我们仅预训练的模型,解决关键关注领域。我们开发了一组提示,旨在引发毒性生成。我们不仅针对偏见和刻板印象,还针对其他类型的有害内容,特别是与暴力和色情主题相关的内容。我们比较了生成毒性补全的提示比例。所有生成都由专家手动注释,使用具体的评估标准。注释是在注释者不知道正在注释哪个模型的生成的情况下进行的。我们正在准备一篇完整的论文来详细介绍此程序,其中将发布完整的基准。由于注释是手动完成的,我们无法与尽可能多的模型进行比较。
模型 | Pleias 350M | SmolLM 360M | Pleias 1.2B | Olmo 1B |
---|---|---|---|---|
毒性生成百分比 (↓) | 22.9% | 37.4% | 32.4% | 41.4% |
为了用现有偏见基准补充这些结果,我们展示了 CrowS-Pairs 基准在英语和法语中的结果。我们的两个最小模型优于其权重类别中的竞争模型,法语的 pico (350M) 模型除外,该模型的性能非常相似。
模型 | 偏见生成比例,英语 (↓) | 偏见生成比例,法语 (↓) |
---|---|---|
Pleias 350M | 0.497 (±0.012) | 0.428 (±0.012) |
SmolLM 350m | 0.562 (±0.012) | 0.399 (± 0.012) |
Pleias 1.2B | 0.413 (± 0.012) | 0.421 (± 0.012) |
Llama 3.2 1B | 0.624 (± 0.012) | 0.481 (± 0.012) |
演示
我们的 RAG 模型可通过我们的新应用程序 ScholasticAI 使用,该应用程序是开源的,并在您的计算机上本地运行我们的 pico (350M) 模型。
使用我们的模型
整个模型家族可通过 HuggingFace 使用。我们根据 permissive Apache 2.0 许可证发布 Pleias 1.0 模型,这意味着这些模型可用于任何目的的使用、分发和修改。