FineWeb-C:一个由社区驱动的教育质量标注数据集,覆盖122种语言

社区文章 发布于2025年7月8日

去年,我们发布了 FineWeb-C,这是一个社区驱动的数据集,旨在开发教育质量分类器,以帮助创建更好、覆盖更多语言的开放式LLM。在这篇文章中,我们很高兴能分享社区构建的这个数据集。

总结:**FineWeb-C 数据集现在拥有超过50,000条涵盖122种语言的标注,重点识别网络上的教育质量内容。**

您可以在Hugging Face上访问该数据集。您可以使用`datasets`库中的`load_dataset`函数加载所有标注:

from datasets import load_dataset
dataset = load_dataset("data-is-better-together/fineweb-c")

或者像这样加载特定语言配置:

from datasets import load_dataset

dataset = load_dataset("data-is-better-together/fineweb-c", "tatar")

数字概览

  • 全球**465**位贡献者
  • 共计**58,185**条标注
  • 覆盖**122**种语言
  • **14**位钻石贡献者(1000+标注)
  • **18**位黄金贡献者(500-999标注)
  • **65**位白银贡献者(100-499标注)
  • **368**位青铜贡献者(1-99标注)

共同构建多语言数据集

该数据集在多语言FineWeb2数据集的基础上进行了扩展。

从鞑靼语(3,015条标注)到越南语(2,869条),从丹麦语(2,573条)到蒂格雷尼亚语(1,837条),世界各地的社区都积极参与,用自己的语言标注网络内容。有些语言吸引了几十名标注者,而另一些则由个人贡献数千条标注。

Stefan-it (4,614)、tagayin (2,094) 和 hannayukhymenko (1,937) 这样的顶级贡献者起到了引领作用,但每一条标注都对构建此资源至关重要。

未来蓝图

FineWeb-C证明了一件重要的事情:社区可以构建他们所需的语言资源。没有任何一家公司能够理解122种语言的细微差别,但我们通过集体协作做到了!

社区标注数据以训练分类器来过滤网络规模数据集的模型,可能会改变我们构建多语言人工智能的方式。我们很高兴看到针对特定领域内容、文化背景或其他数据质量维度的类似努力。

虽然主要的标注工作已经结束,但您可以在data-is-better-together/fineweb-c探索该数据集。加入Discord,与其他使用数据的人交流并分享您的成果。

我们很高兴看到 FineWeb-C 将如何用于改善跨语言的教育内容质量,并期待社区未来能开展类似的努力!

致谢

我们要感谢所有为 FineWeb-C 做出贡献的贡献者。你们用自己的语言标注内容,为整个社区创造了宝贵的资源。特别感谢那些引领潮流的顶级贡献者,以及所有参与者,无论你们做了多少标注。

下面是一个 Space 的预览,您可以在其中查看贡献者及其标注数量:

社区

注册登录以发表评论