发布 Occiglot-Fineweb

社区文章发布于2024年6月4日

今天，我们发布了正在进行的、旨在整理强大的多语言数据集的初步成果。在此早期形式中，该数据集包含约2.3亿份经过严格清理的文档，来自10种语言。Occiglot Fineweb建立在我们现有的精选数据集和预过滤网络数据集合之上。随后，所有文档都经过了基于Fine-web处理管道的语言特定派生过滤，并进行了全局去重。

当前版本的数据集（v0.5）可在Hugging Face上获取，我们将很快公开发布我们基于datatrove的管道。

我们与DiscoResearch合作，发布了一组基于Llama-3的强大德语模型，这些模型在occiglot-fineweb-v0.5的德语部分上进行了持续预训练。有关模型发布的更多信息可在此处查看。

管道详情

我们在收集过程中使用了两个主要数据源。从LLM-Datasets中，我们获取了所考虑语言的所有可用数据集（不包括OSCAR）。此外，我们还从2005年至2023年间的12个Common-Crawl版本中获取了网络抓取数据。所有版本随后都使用OSCAR的Ungoliant管道进行处理。在这种形式下，数据集与Occiglot模型初始版本所使用的训练数据大部分重叠。

所有数据都使用基于Huggingface的fine-web过滤器的语言特定管道进行了严格过滤。除了微小的超参数调整外，我们主要修改了3个方面以确保语言特定的质量过滤。

根据每种语言的语言特征调整平均词长过滤器。
添加语言特定停用词。
添加语言特定的政策过滤器，用于过滤政策和cookie相关内容。

最后，我们对每种语言的所有数据分别进行了minhash去重。重要的是，我们总是保留未包含在网络抓取数据中的重复项。例如，如果维基百科页面也包含在OSCAR中，我们会删除OSCAR的重复项，从而保持维基百科子集的完整性。这种数据集结构允许可靠地对自定义子集进行过采样或欠采样，而不会出现某些相关文档在数据其他地方重新出现的情况。

洞察与下一步

分析清理过程的关键发现之一是整个数据中的重复项数量。虽然总会有一些重叠是预料之中的，但之前的研究表明，不同的CommonCrawl版本在很大程度上是独立的。因此，我们没有为最初的OcciGlot版本对OSCAR数据进行去重。然而，我们观察到数据集中存在大量的重复项。有趣的是，不同语言之间存在显著差异。

语言	重复文档	# 总文档数（过滤后）
捷克语	15.19%	38.71M
希腊语	25.10%	17.01M
葡萄牙语	35.21%	34.85M
西班牙语	41.74%	72.17M
意大利语	45.43%	31.75M
波兰语	46.35%	18.68M
法语	49.13%	61.80M
荷兰语	50.20%	32.42M
德语	50.92%	88.43M
斯洛伐克语	66.23%	8.47M

这些巨大差异的来源仍不清楚，有待进一步调查。此外，我们观察到CommonCrawl的数据质量随着时间的推移持续改进。质量变化在考虑过滤过程中丢弃文档的百分比时最为明显。我们以德语为例，但这些观察结果通常适用于大多数语言。

CommonCrawl 发布（OSCAR 分割）	被丢弃的文档（质量差）	# 总文档数（过滤前）
2015-14	33.84%	796292
2016-40	25.45%	2499685
2017-43	10.29%	7959532
2018-47	11.53%	7901961
2019-22	12.40%	8597472
2020-24	13.49%	8025944
2020-45	13.01%	7242192
2021-49	12.77%	8784646
2022-27	12.22%	9515644
2022-49	11.48%	11127806
2023-14	10.99%	10156164
2023-23	10.52%	11078020

我们正在积极扩展这个初步数据集。一方面，我们未经过滤的数据集包含另外20种语言，我们正在为这些语言构建专用过滤器。此外，我们正在通过处理更多CommonCrawl发布和调查其他数据源来获取更多数据。

我们正在积极寻求合作，请随时通过邮件联系我们，或加入我们的Discord服务器。

（交叉发布自Occiglot博客，原作者为Manuel Brack）

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论