🔥 Argilla 2.0:面向 AI 创作者的数据中心工具 🤗

社区文章 发布于 2024 年 7 月 30 日

自从加入 Hugging Face 以来,我们一直努力发布 Argilla 2.0。今天它发布了,这是一个重要的里程碑。

数据质量决定了 AI 的成败,而 Argilla 2.0 是面向 AI 创作者的数据中心工具。

2.0 最激动人心的方面是协作与社区。只需点击几下,您就可以将您的标注任务向整个 Hugging Face 社区开放。此外,您还可以设置自动任务分配,并为每个任务设置最少用户响应数,以控制数据质量并在创纪录的时间内完成项目!

但本文并非关于新功能,本文是为那些还不了解 Argilla 的人而写的!

image/png

什么是 Argilla?

一个免费开源的 AI 数据构建与迭代工具

为什么选择 Argilla?

高质量的数据对于 AI 而言至关重要。

数据能使模型实现从通用到特定,从大型到小型,从普通到独一无二,从无用到有用,从有害到安全,从平庸到卓越,从别人的模型到你的模型,从概念验证到投入生产

为谁而设?

为所有人!

Argilla 旨在促进 AI 构建者和知识专家之间的协作

  • AI 构建者可以使用 Argilla,并利用他们喜欢的工具实现自动化。他们可以轻松地将数据和模型输出提供给专家。
  • 知识专家可以贡献他们的专业知识,对 AI 系统产生影响。

每个人都应该为 AI 做出贡献!没有人应该被工程概念吓倒。关键在于促进协作,让数据工作更愉快。关键在于充分利用每个人的时间、技能和知识。

用来做什么?

迭代地、持续地思考、构建、评估和改进具有正确数据的 AI 系统!

Argilla 有何不同?

瀑布式软件开发行不通,那么为什么瀑布式 AI 开发就行得通呢?大多数标注工具和服务仍然采用这种方式:AI/业务/专家团队定义需求,他们从标注员那里收集数据,花费大量资金,训练模型,然后意识到需要回到起点 A,导致更多需求,更多标注资金,更多模型和超参数调优等。

这个过程效率低下,原因如下:

  • AI 和业务团队无法真正协作来决定 AI 模型的成败:数据!
  • 这是计算资源的浪费,但更重要的是,这是人类脑力的浪费!随着 AI 模型变得越来越强大,只有专家才能真正贡献力量来评估、塑造和改进其输出。您无法通过要求专家编写需求文档或使用为重复数据标注设计的标注 UI 来实现这一点。让他们利用自己的知识进行探索、查找和修复问题。
  • AI 团队需要快速失败才能尽早部署。如果 AI 团队无法及早获得人工(专家)反馈,预算就会耗尽,项目就无法离开概念验证阶段。

Argilla 如何改变这一切?

一个强大的 SDK,用于设置项目和数据集。无论处于哪个开发阶段,AI 团队都可以从构思到部署后收集人工反馈!

import argilla as rg
from datasets import load_dataset
# Argilla datasets are configured with questions for your annotators and data fields
settings = rg.Settings(
    fields=[
        rg.TextField(name="review"),
    ],
    questions=[
        rg.LabelQuestion(
            name="sentiment",
            title="In which category does this article fit?",
            labels=["positive", "negative"],
        )
    ]
)

dataset = rg.Dataset(
    name="my_first_dataset",
    settings=settings,
    client=client,
    workspace="argilla"
)
# create dataset in Argilla
dataset.create()
# read a dataset from the Hub, add its rows to your dataset
hf_dataset = load_dataset("imdb", split="train[:100]").to_list()
dataset.records.log(records=hf_dataset, mapping={"text": "review"})

不再是一刀切的方案。不再只有用于文本/图像分类、命名实体识别(NER)或监督微调的数据集。每个项目都不同,您希望向专家提出正确的问题,而不是单个模型所期望的问题。为什么不一次性收集命名实体识别、文本分类和文本生成的数据呢!

image/png

一种探索-查找-标注方法。反复被问到重复的问题或突出相同的问题,这是浪费专家时间的好方法。在 Argilla 中,您要求专家利用他们的知识,而不是逐个标注固定的 1000 个示例。

image/png

Hugging Face Hub 紧密集成,意味着您可以在 5 分钟内启动并运行。它将数据工作与模型、数据集管理和庞大的社区更紧密地结合在一起。

例如,Argilla 数据集可以在 Hub 中共享和导入。

import argilla as rg

client = rg.Argilla(api_url="<api_url>", api_key="<api_key>")
# retrieve your dataset from Argilla
dataset = client.datasets(name="my_dataset")
# export to Hub
dataset.to_hub(
    repo_id="<my_org>/<my_dataset>",
    with_records=True,
    generate_card=True
)
# import from hub
dataset = rg.Dataset.from_hub(repo_id="<my_org>/<my_dataset>")

但最令人兴奋的集成是:您只需点击两下,即可部署 Argilla 并向整个社区开放您的标注任务!

别相信我的话,今天就开始使用吧,让我们一起让数据飞起来!

https://docs.argilla.com.cn/latest/getting_started/quickstart/

社区

注册登录 进行评论