发布最大的多语言开放预训练数据集
许多人声称,训练大型语言模型需要受版权保护的数据,使得真正开放的 AI 开发变得不可能。今天,Pleias 通过发布 Common Corpus(AI 联盟开放可信数据倡议的一部分)证明了并非如此。Common Corpus 是用于训练 LLM 的最大完全开放多语言数据集,包含超过 2 万亿个经许可授权的内容标记,并附有出处信息(2,003,039,184,047 个标记)。
随着开发者们应对欧盟人工智能法案等新法规带来的压力,Common Corpus 超越了合规性,通过 HuggingFace 免费提供我们所有经许可授权的数据集,并附有每个数据源的详细文档。我们已采取广泛措施,确保数据集高质量,并经过精心策划以训练强大的模型。通过此次发布,我们正在证明开放性和性能之间不必存在如此[沉重]的权衡。
Common Corpus 具有以下特点:
- 真正开放:仅包含经许可授权的数据,并记录了数据来源
- 多语言:主要包含英语和法语数据,但也包含超过 30 种语言的至少 10 亿个标记
- 多样性:由科学文章、政府和法律文件、代码以及文化遗产数据组成,包括书籍和报纸
- 精心策划:已纠正数字化文本中的拼写和格式错误,已删除有害和有毒内容,并已删除教育内容低的内
容。
我们需要更多更好的开放训练数据
Common Corpus 建立在日益壮大的大型开放数据集生态系统之上,例如 Dolma、FineWeb、RefinedWeb。目前在 Eleuther 协调下筹备的 Common Pile 也是基于使用许可内容(英文)的相同原则构建的,并且不出所料,存在许多合作和共享工作的机会。但即使这些数据集加起来,也无法为参数多于几十亿的模型提供足够的训练数据。因此,为了扩展开放模型训练的选择,我们仍然需要更多开放数据。
而且数据开放还不够。一些数据集存在问题,例如那些从网络抓取文本派生出来的数据集,它们为许多语言模型提供了支持。内容来源通常无法追溯,数据本身可能毒性过高或质量低下,而且网站越来越限制对其数据的访问。根据对 ChatGPT 100 万用户交互的分析,用户请求中大部分是创意作品,学术作品和代码生成占请求的比例较小但仍很重要。相比之下,新闻和一般信息在请求中所占的比例相对较小。这与可用于训练大型语言模型的开放数据集不符,这些数据集包含大量百科全书和教科书式的信息内容。我们实际需要的那种内容——比如创意写作——通常受版权限制。
Common Corpus 简介

Common Corpus 通过五个精心策划的集合来应对这些挑战
- OpenCulture:我们最大的集合,包含 926,541,096,243 个标记,其中包含公共领域的书籍、报纸和维基资源内容。我们开发了 OCROnos-Vintage 等创新工具来纠正历史数字化错误,同时实施了高级毒性过滤,以确保内容符合现代道德标准。
- OpenGovernment:387,965,738,992 个标记的金融和法律文件,包括 Finance Commons(来自 SEC 和 WTO 等来源)和 Legal Commons(包括 Europarl 和 Caselaw Access Project),提供来自监管机构和行政来源的企业级训练数据。
- OpenSource:来自 GitHub 开源的 334,658,896,533 个高质量代码标记,使用 ArmoRM 进行过滤,以确保只包含质量评分排名前 80% 的提交。
- OpenScience:来自 Open Alex 和其他开放科学存储库的 221,798,136,564 个学术内容标记,使用视觉语言模型进行处理,以保留关键文档结构和格式。
- OpenWeb:来自 Wikipedia、YouTube Commons 和其他在许可许可(如 Stack-Exchange)下可用的网站的 132,075,315,715 个标记。
超越英语
虽然英语仍然是我们最大的语言,拥有 867,033,096,123 个标记,但 Common Corpus 在 AI 训练数据的语言多样性方面迈出了重要一步。我们提供了大量的法语(2660 亿个标记)和德语(1120 亿个标记)覆盖。此外,我们还保持了广泛的语言覆盖,超过 30 种语言中拥有超过 10 亿个标记,包括西班牙语、意大利语和荷兰语等重要集合。这种语言多样性,结合我们庞大的代码语料库(占总数据的 18.8%),有助于在英语区以外实现人工智能开发的民主化。通过提供高质量、许可授权的多语言数据,我们正在努力确保语言人工智能的经济效益能够更公平地在各个语言社区之间共享。
语言 | 标记计数 |
---|---|
英语 | 8080 亿 |
法语 | 2660 亿 |
德语 | 1120 亿 |
西班牙语 | 460 亿 |
拉丁语 | 340 亿 |
荷兰语 | 290 亿 |
意大利语 | 240 亿 |
波兰语 | 110 亿 |
希腊语 | 110 亿 |
葡萄牙语 | 90 亿 |
数据处理和数据质量的创新
高质量的训练数据直接影响模型性能,但要达到这种质量,需要的不仅仅是用于网络抓取数据集的标准化去重和过滤。我们开发了一套专门的工具和方法,每种工具都针对不同数据类型的独特挑战量身定制。
对于 OpenCulture 的历史文本,我们解决了两大挑战。首先,我们创建了 OCRonos-Vintage,这是一个轻量但功能强大的 OCR 纠错模型,可大规模修复数字化错误。该 1.24 亿参数模型可在 CPU 和 GPU 上高效运行,纠正间距问题,替换不正确的单词,并修复损坏的文本结构。其次,我们为多语言历史内容开发了专门的毒性检测系统,该系统可识别和删除关于少数群体的有害语言,而不会过度删除数据。我们的毒性分类器和相关工具已在 HuggingFace 上公开可用。PDF 中的学术内容需要不同的方法。我们没有简单地提取文本,而是使用视觉语言模型来保留关键的文档结构,维护标题、章节和内容之间的语义关系。

对于代码质量,我们整合了 ArmoRM 来评估复杂性、风格和文档,只保留达到特定质量阈值以上的代码。
隐私和 GDPR 合规性也是重要的考虑因素。我们开发了针对特定区域的个人身份信息 (PII) 检测系统,该系统考虑了不同国家/地区电话号码和地址等敏感信息格式的差异,确保了多语言数据集的统一合规性。
我们所有的策划工具和流程都是开源的,为数据集开发设定了新的透明度标准。
使用 Common Corpus
Common Corpus 可供使用:[https://huggingface.co/datasets/PleIAs/common_corpus](https://huggingface.co/datasets/PleIAs/common_corpus。我们将随数据集发布一份全面的技术报告,详细说明我们的方法和数据来源,以确保完全透明和可重复性。我们将在未来几周内发布单独的子语料库,以便进行更细粒度的审计以扩展用途。
该语料库在 AI Alliance、Jean Zay (Eviden, Idris)、Nvidia Inception program、Nebius AI 和 Tracto AI 的慷慨支持下存储和处理。它是在法国文化部和 DINUM 支持的国家初创企业 LANGU:IA (start-up d’Etat) 的支持和协调努力下构建的,作为语言技术联盟 EDIC (ALT-EDIC) 服务产品预配置的一部分。该数据集也与 Wikimedia Enterprise 合作构建,用于 Wikipedia 部分。语料库的收集在很大程度上得益于开放科学 LLM 社区的见解、合作和支持(Eleuther AI、Allen AI、HuggingFace…)。