发布 Common Corpus:用于训练大型语言模型的最大公共领域数据集
我们今天宣布在 HuggingFace 上发布 Common Corpus
- Common Corpus 是用于训练大型语言模型发布的最大的公共领域数据集。
- Common Corpus 包含来自各种文化遗产项目的 5000 亿个单词。
- Common Corpus 是多语言的,是迄今为止英语、法语、荷兰语、西班牙语、德语和意大利语中最大的语料库。
- Common Corpus 表明,可以在没有版权问题的来源上训练完全开放的大型语言模型。
Common Corpus 是一项由 Pleias 协调的国际倡议,涉及大型语言模型预训练、人工智能伦理和文化遗产领域的研究人员,并与致力于人工智能开放科学方法的主要组织(HuggingFace、Occiglot、Eleuther、Nomic AI)合作。Common Corpus 得到了 Lang:IA 的支持,Lang:IA 是法国文化部和数字局支持的国有初创公司(Agent Public。Pleias 是一家法国初创公司,专门为在完全开放和可审计的语料库上进行文档处理而训练大型语言模型。
与大多数大型人工智能公司声称的不同,发布 Common Corpus 旨在表明可以在完全开放和可重现的语料库上训练大型语言模型,而无需使用受版权保护的内容。这只是我们目前收集到的一小部分,部分原因是版权期限验证过程漫长。在接下来的几周和几个月里,我们将继续发布更多来自其他开放来源(如开放数据或开放科学)的数据集。
CommonCorpus 拥有迄今为止最大的英语数据集,包含 1800 亿个单词。这包括美国的主要收藏,2100 万份数字化报纸,即《美国纪事报》,还可以通过 Nomic AI 创建的原始语料库地图完全探索,以及数字历史学家 Sebastian Majstorovic 收集的大型专著数据集。
Common Corpus 也是多语言的。它还包含迄今为止法语(1100 亿词)、德语(300 亿词)、西班牙语、荷兰语或意大利语中最大的开放数据集,以及目前在大型语言模型训练中很少被代表的低资源语言的长尾。
Common Corpus 不仅开放,而且比通常用于预训练的网络存档数据集更具质量和多样性。它包含数百万本具有丰富推理内容的书籍,这使其非常适合创建具有长上下文的模型。
Common Corpus 是一项长期进行中的工作的开始。要实现这一目标并增强此集合,还有许多事情要做。我们的目标是支持强大的人工智能数据公共资源,以简化研究并使其更具可重现性,同时通过确保任何人都可以查看大型模型,使人工智能更易于访问、多样化和民主化。