LLM 课程文档

使用你的标注数据集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

使用你的标注数据集

Ask a Question Open In Colab Open In Studio Lab

我们现在将学习如何导出和使用我们在 Argilla 中标注的数据。

加载数据集

首先,我们需要确保我们像之前的步骤一样连接到我们的 Argilla 实例

import argilla as rg

HF_TOKEN = "..."  # only for private spaces

client = rg.Argilla(
    api_url="...",
    api_key="...",
    headers={"Authorization": f"Bearer {HF_TOKEN}"},  # only for private spaces
)

现在,我们将加载我们将要使用的数据集

dataset = client.datasets(name="ag_news")

加载数据集并使用 dataset.records 调用其记录足以开始将您的数据集和记录用于您自己的目的和管道。但是,我们还将学习如何执行一些可选操作,例如过滤记录以及将数据集导出到 Hugging Face Hub。

过滤数据集

有时您只想使用已完成的记录,因此我们首先将根据记录的状态过滤数据集中的记录

status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))

filtered_records = dataset.records(status_filter)

⚠️ 请注意,状态为 completed 的记录(即,满足任务分配设置中配置的最小提交响应数的记录)可能具有多个响应,并且每个响应可以具有来自 submitteddraftdiscarded 的任何状态。

了解更多关于在 Argilla 文档中查询和过滤记录的信息。

导出到 Hub

我们现在可以将我们的标注导出到 Hugging Face Hub,以便我们可以与他人分享。为此,我们需要将记录转换为 🤗 Dataset,然后将其推送到 Hub

filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")

或者,我们可以像这样直接导出完整的 Argilla 数据集(包括待处理记录)

dataset.to_hub(repo_id="argilla/ag_news_annotated")

如果其他人想在他们的 Argilla 实例中打开数据集,这是一个有趣的选择,因为设置会自动保存,他们只需使用单行代码即可导入完整的数据集

dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")
< > 在 GitHub 上更新