发布 Occiglot-Fineweb
今天,我们发布了正在进行的、旨在整理强大的多语言数据集的初步成果。在此早期形式中,该数据集包含约2.3亿份经过严格清理的文档,来自10种语言。Occiglot Fineweb建立在我们现有的精选数据集和预过滤网络数据集合之上。随后,所有文档都经过了基于Fine-web处理管道的语言特定派生过滤,并进行了全局去重。
当前版本的数据集(v0.5)可在Hugging Face上获取,我们将很快公开发布我们基于datatrove的管道。
我们与DiscoResearch合作,发布了一组基于Llama-3的强大德语模型,这些模型在occiglot-fineweb-v0.5的德语部分上进行了持续预训练。有关模型发布的更多信息可在此处查看。
管道详情
我们在收集过程中使用了两个主要数据源。从LLM-Datasets中,我们获取了所考虑语言的所有可用数据集(不包括OSCAR)。此外,我们还从2005年至2023年间的12个Common-Crawl版本中获取了网络抓取数据。所有版本随后都使用OSCAR的Ungoliant管道进行处理。在这种形式下,数据集与Occiglot模型初始版本所使用的训练数据大部分重叠。
所有数据都使用基于Huggingface的fine-web过滤器的语言特定管道进行了严格过滤。除了微小的超参数调整外,我们主要修改了3个方面以确保语言特定的质量过滤。
- 根据每种语言的语言特征调整平均词长过滤器。
- 添加语言特定停用词。
- 添加语言特定的政策过滤器,用于过滤政策和cookie相关内容。
最后,我们对每种语言的所有数据分别进行了minhash去重。重要的是,我们总是保留未包含在网络抓取数据中的重复项。例如,如果维基百科页面也包含在OSCAR中,我们会删除OSCAR的重复项,从而保持维基百科子集的完整性。这种数据集结构允许可靠地对自定义子集进行过采样或欠采样,而不会出现某些相关文档在数据其他地方重新出现的情况。
洞察与下一步
分析清理过程的关键发现之一是整个数据中的重复项数量。虽然总会有一些重叠是预料之中的,但之前的研究表明,不同的CommonCrawl版本在很大程度上是独立的。因此,我们没有为最初的OcciGlot版本对OSCAR数据进行去重。然而,我们观察到数据集中存在大量的重复项。有趣的是,不同语言之间存在显著差异。
语言 | 重复文档 | # 总文档数(过滤后) |
---|---|---|
捷克语 | 15.19% | 38.71M |
希腊语 | 25.10% | 17.01M |
葡萄牙语 | 35.21% | 34.85M |
西班牙语 | 41.74% | 72.17M |
意大利语 | 45.43% | 31.75M |
波兰语 | 46.35% | 18.68M |
法语 | 49.13% | 61.80M |
荷兰语 | 50.20% | 32.42M |
德语 | 50.92% | 88.43M |
斯洛伐克语 | 66.23% | 8.47M |
这些巨大差异的来源仍不清楚,有待进一步调查。此外,我们观察到CommonCrawl的数据质量随着时间的推移持续改进。质量变化在考虑过滤过程中丢弃文档的百分比时最为明显。我们以德语为例,但这些观察结果通常适用于大多数语言。
CommonCrawl 发布(OSCAR 分割) | 被丢弃的文档(质量差) | # 总文档数(过滤前) |
---|---|---|
2015-14 | 33.84% | 796292 |
2016-40 | 25.45% | 2499685 |
2017-43 | 10.29% | 7959532 |
2018-47 | 11.53% | 7901961 |
2019-22 | 12.40% | 8597472 |
2020-24 | 13.49% | 8025944 |
2020-45 | 13.01% | 7242192 |
2021-49 | 12.77% | 8784646 |
2022-27 | 12.22% | 9515644 |
2022-49 | 11.48% | 11127806 |
2023-14 | 10.99% | 10156164 |
2023-23 | 10.52% | 11078020 |
我们正在积极扩展这个初步数据集。一方面,我们未经过滤的数据集包含另外20种语言,我们正在为这些语言构建专用过滤器。此外,我们正在通过处理更多CommonCrawl发布和调查其他数据源来获取更多数据。
我们正在积极寻求合作,请随时通过邮件联系我们,或加入我们的Discord服务器。
(交叉发布自Occiglot博客,原作者为Manuel Brack)