FineWeb-C：一个由社区驱动的教育质量标注数据集，覆盖122种语言

社区文章发布于2025年7月8日

去年，我们发布了 FineWeb-C，这是一个社区驱动的数据集，旨在开发教育质量分类器，以帮助创建更好、覆盖更多语言的开放式LLM。在这篇文章中，我们很高兴能分享社区构建的这个数据集。

总结：**FineWeb-C 数据集现在拥有超过50,000条涵盖122种语言的标注，重点识别网络上的教育质量内容。**

您可以在Hugging Face上访问该数据集。您可以使用`datasets`库中的`load_dataset`函数加载所有标注：

from datasets import load_dataset
dataset = load_dataset("data-is-better-together/fineweb-c")

或者像这样加载特定语言配置：

from datasets import load_dataset

dataset = load_dataset("data-is-better-together/fineweb-c", "tatar")

数字概览

该数据集在多语言FineWeb2数据集的基础上进行了扩展。

从鞑靼语（3,015条标注）到越南语（2,869条），从丹麦语（2,573条）到蒂格雷尼亚语（1,837条），世界各地的社区都积极参与，用自己的语言标注网络内容。有些语言吸引了几十名标注者，而另一些则由个人贡献数千条标注。

像Stefan-it (4,614)、tagayin (2,094) 和 hannayukhymenko (1,937) 这样的顶级贡献者起到了引领作用，但每一条标注都对构建此资源至关重要。

FineWeb-C证明了一件重要的事情：社区可以构建他们所需的语言资源。没有任何一家公司能够理解122种语言的细微差别，但我们通过集体协作做到了！

社区标注数据以训练分类器来过滤网络规模数据集的模型，可能会改变我们构建多语言人工智能的方式。我们很高兴看到针对特定领域内容、文化背景或其他数据质量维度的类似努力。

虽然主要的标注工作已经结束，但您可以在data-is-better-together/fineweb-c探索该数据集。加入Discord，与其他使用数据的人交流并分享您的成果。

我们很高兴看到 FineWeb-C 将如何用于改善跨语言的教育内容质量，并期待社区未来能开展类似的努力！

我们要感谢所有为 FineWeb-C 做出贡献的贡献者。你们用自己的语言标注内容，为整个社区创造了宝贵的资源。特别感谢那些引领潮流的顶级贡献者，以及所有参与者，无论你们做了多少标注。

下面是一个 Space 的预览，您可以在其中查看贡献者及其标注数量：

酷

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论