发布 Occiglot-Fineweb

社区文章 发布于2024年6月4日

今天,我们发布了正在进行的、旨在整理强大的多语言数据集的初步成果。在此早期形式中,该数据集包含约2.3亿份经过严格清理的文档,来自10种语言。Occiglot Fineweb建立在我们现有的精选数据集和预过滤网络数据集合之上。随后,所有文档都经过了基于Fine-web处理管道的语言特定派生过滤,并进行了全局去重。

image/png

当前版本的数据集(v0.5)可在Hugging Face上获取,我们将很快公开发布我们基于datatrove的管道。

我们与DiscoResearch合作,发布了一组基于Llama-3的强大德语模型,这些模型在occiglot-fineweb-v0.5的德语部分上进行了持续预训练。有关模型发布的更多信息可在此处查看

管道详情

我们在收集过程中使用了两个主要数据源。从LLM-Datasets中,我们获取了所考虑语言的所有可用数据集(不包括OSCAR)。此外,我们还从2005年至2023年间的12个Common-Crawl版本中获取了网络抓取数据。所有版本随后都使用OSCAR的Ungoliant管道进行处理。在这种形式下,数据集与Occiglot模型初始版本所使用的训练数据大部分重叠。

所有数据都使用基于Huggingface的fine-web过滤器的语言特定管道进行了严格过滤。除了微小的超参数调整外,我们主要修改了3个方面以确保语言特定的质量过滤。

  1. 根据每种语言的语言特征调整平均词长过滤器。
  2. 添加语言特定停用词。
  3. 添加语言特定的政策过滤器,用于过滤政策和cookie相关内容。

最后,我们对每种语言的所有数据分别进行了minhash去重。重要的是,我们总是保留未包含在网络抓取数据中的重复项。例如,如果维基百科页面也包含在OSCAR中,我们会删除OSCAR的重复项,从而保持维基百科子集的完整性。这种数据集结构允许可靠地对自定义子集进行过采样或欠采样,而不会出现某些相关文档在数据其他地方重新出现的情况。

洞察与下一步

分析清理过程的关键发现之一是整个数据中的重复项数量。虽然总会有一些重叠是预料之中的,但之前的研究表明,不同的CommonCrawl版本在很大程度上是独立的。因此,我们没有为最初的OcciGlot版本对OSCAR数据进行去重。然而,我们观察到数据集中存在大量的重复项。有趣的是,不同语言之间存在显著差异。

语言 重复文档 # 总文档数(过滤后)
捷克语 15.19% 38.71M
希腊语 25.10% 17.01M
葡萄牙语 35.21% 34.85M
西班牙语 41.74% 72.17M
意大利语 45.43% 31.75M
波兰语 46.35% 18.68M
法语 49.13% 61.80M
荷兰语 50.20% 32.42M
德语 50.92% 88.43M
斯洛伐克语 66.23% 8.47M

这些巨大差异的来源仍不清楚,有待进一步调查。此外,我们观察到CommonCrawl的数据质量随着时间的推移持续改进。质量变化在考虑过滤过程中丢弃文档的百分比时最为明显。我们以德语为例,但这些观察结果通常适用于大多数语言。

CommonCrawl 发布(OSCAR 分割) 被丢弃的文档(质量差) # 总文档数(过滤前)
2015-14 33.84% 796292
2016-40 25.45% 2499685
2017-43 10.29% 7959532
2018-47 11.53% 7901961
2019-22 12.40% 8597472
2020-24 13.49% 8025944
2020-45 13.01% 7242192
2021-49 12.77% 8784646
2022-27 12.22% 9515644
2022-49 11.48% 11127806
2023-14 10.99% 10156164
2023-23 10.52% 11078020

我们正在积极扩展这个初步数据集。一方面,我们未经过滤的数据集包含另外20种语言,我们正在为这些语言构建专用过滤器。此外,我们正在通过处理更多CommonCrawl发布和调查其他数据源来获取更多数据。

我们正在积极寻求合作,请随时通过邮件联系我们,或加入我们的Discord服务器

(交叉发布自Occiglot博客,原作者为Manuel Brack

社区

注册登录以发表评论