FineWeb2-C:帮助您用您的语言构建更好的语言模型
社区文章 发布于2024年12月23日
tl;dr 我们正在开发教育质量分类器,以帮助创建更多语言的更好的开放大型语言模型。准备好贡献了吗?在此处开始标注:此处。想了解更多?请继续阅读。
数据集质量为何重要
大型语言模型(LLM)的性能在很大程度上取决于其预训练数据集的质量和大小。预训练数据集包含海量的文本,有助于模型开发其基本语言能力——这是训练任何语言强大LLM的关键组成部分。
当前过滤方法
最近,许多项目发现,对预训练数据集应用各种质量过滤器有助于提高在此文本上训练的下游模型的性能。这些过滤器包括:
- 使用黑名单进行URL过滤,以移除成人内容和低质量网页
- 基于规则的过滤器,用于移除高度重复或机器生成的文本模式
- 语言过滤器,以确保文本与目标语言匹配并移除混合语言内容
按教育质量进行精炼?
最近,FineWeb 的作者们演示了对预训练数据集进行高教育质量过滤可以改进由此产生的下游模型。这是通过使用在 Llama-3-70B-Instruct 上使用合成标注数据训练的分类器完成的。
我们为什么需要帮助进行标注?
这种方法对英语很有效,但可能不适用于其他语言。这正是您可以帮助为您的语言构建更好的数据集和模型的地方。FineWeb2-C 倡议旨在通过社区驱动的努力,对多种语言的文本质量进行评分,从而为多种语言的语言模型预训练创建大型、高质量的数据集。此外,这些数据集还可用于其他应用,例如作为每种语言高质量参考数据的来源、基准测试和提高模型(合成)标注能力。
迄今为止做了什么?
在大约两周后,社区已经极大地影响了这项工作。我们已经发布了数据集的第一个版本,涵盖了12种语言,达到了1,000个标注的阈值。我们已经看到了:
- 总共提交了34,571个标注
- 有标注的语言达到95种
- 总贡献者321人
您可以在此排行榜空间中找到语言和贡献的完整排行榜。
我们相信,当社区齐心协力时,开源AI能够更加包容,并创造出令人惊叹的成果🤗
如何开始标注
- 创建一个 Hugging Face 帐户(如果您还没有)
- 访问我们的 Argilla Space 并使用您的 Hugging Face 帐户登录
- 选择您要标注的语言
- 开始前请仔细阅读标注指南
- 开始标注!
广而告之!
除了标注之外,您还可以通过广而告之来确保我们触达所有语言社区。需要帮助吗?加入我们的社区讨论。