FineWeb-C:一个由社区驱动的教育质量标注数据集,覆盖122种语言
去年,我们发布了 FineWeb-C,这是一个社区驱动的数据集,旨在开发教育质量分类器,以帮助创建更好、覆盖更多语言的开放式LLM。在这篇文章中,我们很高兴能分享社区构建的这个数据集。
总结:**FineWeb-C 数据集现在拥有超过50,000条涵盖122种语言的标注,重点识别网络上的教育质量内容。**
您可以在Hugging Face上访问该数据集。您可以使用`datasets`库中的`load_dataset`函数加载所有标注:
from datasets import load_dataset
dataset = load_dataset("data-is-better-together/fineweb-c")
或者像这样加载特定语言配置:
from datasets import load_dataset
dataset = load_dataset("data-is-better-together/fineweb-c", "tatar")
数字概览
- 全球**465**位贡献者
- 共计**58,185**条标注
- 覆盖**122**种语言
- **14**位钻石贡献者(1000+标注)
- **18**位黄金贡献者(500-999标注)
- **65**位白银贡献者(100-499标注)
- **368**位青铜贡献者(1-99标注)
共同构建多语言数据集
该数据集在多语言FineWeb2数据集的基础上进行了扩展。
从鞑靼语(3,015条标注)到越南语(2,869条),从丹麦语(2,573条)到蒂格雷尼亚语(1,837条),世界各地的社区都积极参与,用自己的语言标注网络内容。有些语言吸引了几十名标注者,而另一些则由个人贡献数千条标注。
像Stefan-it (4,614)、tagayin (2,094) 和 hannayukhymenko (1,937) 这样的顶级贡献者起到了引领作用,但每一条标注都对构建此资源至关重要。
未来蓝图
FineWeb-C证明了一件重要的事情:社区可以构建他们所需的语言资源。没有任何一家公司能够理解122种语言的细微差别,但我们通过集体协作做到了!
社区标注数据以训练分类器来过滤网络规模数据集的模型,可能会改变我们构建多语言人工智能的方式。我们很高兴看到针对特定领域内容、文化背景或其他数据质量维度的类似努力。
虽然主要的标注工作已经结束,但您可以在data-is-better-together/fineweb-c探索该数据集。加入Discord,与其他使用数据的人交流并分享您的成果。
我们很高兴看到 FineWeb-C 将如何用于改善跨语言的教育内容质量,并期待社区未来能开展类似的努力!
致谢
我们要感谢所有为 FineWeb-C 做出贡献的贡献者。你们用自己的语言标注内容,为整个社区创造了宝贵的资源。特别感谢那些引领潮流的顶级贡献者,以及所有参与者,无论你们做了多少标注。
下面是一个 Space 的预览,您可以在其中查看贡献者及其标注数量: