数据共同助力:使用 Argilla 和 Hugging Face Spaces 赋能社区共同构建更优数据集

发布于 2024 年 3 月 4 日
在 GitHub 上更新

最近,Argilla 和 Hugging Face 推出了 Data is Better Together,这是一项共同构建提示排名偏好数据集的实验。几天之内,我们取得了:

  • 350 名社区贡献者进行数据标注
  • 超过 11,000 条提示评分

请查看进度仪表盘以获取最新数据!

这促成了 10k_prompts_ranked 数据集的发布,该数据集包含 10,000 条带有用户质量评分的提示。我们希望能够实现更多类似的项目!

在这篇文章中,我们将讨论为何我们认为社区协作构建数据集至关重要,并邀请大家加入 Argilla 和 Hugging Face 将支持的首批社区,共同开发更好的数据集!

数据对于构建更好的模型至关重要

数据对于构建更好的模型仍然至关重要:我们从已发表的研究、开源实验以及开源社区中持续看到证据表明,更好的数据可以带来更好的模型。

Screenshot of datasets in the Hugging Face Hub
问题是。

Screenshot of datasets in the Hugging Face Hub
一个常见的答案。

为何要共同构建数据集?

数据对于机器学习至关重要,但许多语言、领域和任务仍然缺乏高质量的数据集用于训练、评估和基准测试——社区每天通过 Hugging Face Hub 共享数千个模型、数据集和演示。通过协作,开放获取的 AI 社区创造了许多惊人的成果。赋能社区共同构建数据集将为构建下一代数据集以构建下一代模型开启独特的机会。

赋能社区共同构建和改进数据集将使人们能够:

  • 在无需机器学习或编程技能的情况下为开源机器学习的开发做出贡献。
  • 为特定语言创建聊天数据集。
  • 为特定领域开发基准数据集。
  • 从不同参与者那里创建偏好数据集。
  • 为特定任务构建数据集。
  • 作为一个社区共同构建全新类型的数据集。

重要的是,我们相信共同构建数据集将使社区能够构建更好的数据集,并让不懂编程的人也能够为 AI 的发展做出贡献。

让人们轻松贡献

以前许多共同构建 AI 数据集的努力面临的挑战之一是建立高效的标注任务。Argilla 是一款开源工具,可以帮助为 LLM 和更小的专用任务模型创建数据集。Hugging Face Spaces 是一个用于构建和托管机器学习演示和应用程序的平台。最近,Argilla 增加了对托管在 Spaces 上的 Argilla 实例通过 Hugging Face 账户进行身份验证的支持。这意味着用户现在只需几秒钟即可开始为标注任务做出贡献。

现在我们已经通过创建 10k_prompts_ranked 数据集对这一新工作流程进行了压力测试,我们希望支持社区发起新的集体数据集工作。

加入我们首批希望共同构建更优数据集的社区!

我们对这种新的、简单的托管标注任务流程所带来的可能性感到非常兴奋。为了支持社区构建更好的数据集,Hugging Face 和 Argilla 邀请有兴趣的人和社区加入我们的首批社区数据集构建者。

加入本批次的人员将:

  • 在创建具有 Hugging Face 身份验证的 Argilla Space 方面获得支持。Hugging Face 将为参与者提供免费的持久存储和改进的 CPU 空间。
  • 他们的宣传和推广活动将得到 Argilla 和 Hugging Face 的扩大支持。
  • 被邀请加入一个协作社区频道

我们的目标是支持社区共同构建更好的数据集。我们对许多想法持开放态度,并希望尽可能支持社区共同构建更好的数据集。

我们正在寻找哪种类型的项目?

我们愿意支持多种类型的项目,尤其是现有开源社区的项目。我们特别感兴趣的是那些专注于为目前在开源社区中代表性不足的语言、领域和任务构建数据集的项目。我们目前唯一的限制是,我们主要关注基于文本的数据集。如果您对多模态数据集有非常酷的想法,我们很乐意听取您的意见,但可能无法在本批次中为您提供支持。

任务可以完全开放,也可以仅对特定 Hugging Face Hub 组织的成员开放。

如果您想成为首批成员,请加入 Hugging Face Discord 的 #data-is-better-together 频道,告诉我们您想共同构建什么!

我们期待与您共同构建更优数据集!

社区

注册登录以评论