Argilla 2.4:在 Hub 上轻松构建微调和评估数据集——无需代码

发布于 2024 年 11 月 4 日
在 GitHub 上更新

我们非常高兴能分享 Argilla 加入 Hugging Face 以来最具影响力的功能:您无需任何代码即可准备 AI 数据集,从任何 Hub 数据集开始!使用 Argilla 的 UI,您可以轻松从 Hugging Face Hub 导入数据集,定义问题,并开始收集人工反馈。

不熟悉 Argilla?Argilla 是一款免费、开源的以数据为中心的工具。使用 Argilla,AI 开发人员和领域专家可以协作构建高质量数据集。Argilla 是 Hugging Face 家族的一部分,并与 Hub 完全集成。想了解更多?这里有一篇入门博客文章

为什么这项新功能对您和社区很重要?

  • Hugging Face hub 包含 23 万个数据集,您可以将其作为 AI 项目的基础。
  • 它简化了从 Hugging Face 社区或专业团队收集人工反馈的过程。
  • 它为对特定领域拥有丰富知识但对编写代码不确定性的用户民主化了数据集创建过程。

用例

这项新功能民主化了在 Hub 上构建高质量数据集的过程

  • 如果您已经发布了开放数据集并希望社区贡献,请将其导入公共 Argilla Space 并与世界分享 URL!
  • 如果您想从头开始注释新数据集,请将 CSV 上传到 Hub,将其导入您的 Argilla Space,然后开始标注!
  • 如果您想为微调或评估模型而策展现有 Hub 数据集,请将数据集导入 Argilla Space 并开始策展!
  • 如果您想改进现有 Hub 数据集以造福社区,请将其导入 Argilla Space 并开始提供反馈!

工作原理

首先,您需要部署 Argilla。推荐的方法是按照此指南在 Spaces 上部署。默认部署启用了 Hugging Face OAuth,这意味着您的 Space 将对任何 Hub 用户开放注释贡献。OAuth 非常适合您希望社区为您的数据集做出贡献的用例。如果您想将注释限制为您和其他协作者,请查看此指南以获取更多配置选项。

Argilla 运行后,登录并单击主页上的“从 Hugging Face 导入数据集”按钮。您可以从我们的示例数据集开始,或输入要使用的数据集的 repo ID。

在此第一个版本中,Hub 数据集必须是公共的。如果您对支持私有数据集感兴趣,我们很乐意在 GitHub 上听到您的意见。

Argilla 会根据数据集的特征自动建议初始配置,因此您无需从头开始,但您可以添加问题或删除不必要的字段。字段应包含您想要反馈的数据,例如文本、聊天或图像。问题是您希望收集的反馈,例如标签、评分、排名或文本。所有更改都会实时显示,因此您可以清楚地了解正在配置的 Argilla 数据集。

对结果满意后,单击“创建数据集”以导入具有您的配置的数据集。现在您已准备好提供反馈!

您可以按照快速入门指南亲自尝试。这只需不到 5 分钟!

这种新工作流程简化了从 Hub 导入数据集的过程,但如果您需要进一步自定义,您仍然可以使用 Argilla 的 Python SDK 导入数据集

我们很乐意听到您的想法和初次体验。请在 GitHubHF Discord 上告诉我们!

社区

注册登录评论