LLM 课程文档

使用您已标注的数据集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

使用您已标注的数据集

Ask a Question Open In Colab Open In Studio Lab

现在我们将学习如何导出和使用我们 Argilla 中已标注的数据。

加载数据集

首先,我们需要确保像之前步骤一样,我们已经连接到 Argilla 实例。

import argilla as rg

HF_TOKEN = "..."  # only for private spaces

client = rg.Argilla(
    api_url="...",
    api_key="...",
    headers={"Authorization": f"Bearer {HF_TOKEN}"},  # only for private spaces
)

现在,我们将加载我们正在使用的数据集。

dataset = client.datasets(name="ag_news")

加载数据集并使用 `dataset.records` 调用其记录足以开始将您的数据集和记录用于您自己的目的和管道。然而,我们还将学习如何执行一些可选操作,例如过滤记录和将数据集导出到 Hugging Face Hub。

过滤数据集

有时您只想使用已完成的记录,所以我们首先根据记录的状态来过滤数据集中的记录。

status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))

filtered_records = dataset.records(status_filter)

⚠️ 请注意,`completed` 状态的记录(即满足任务分发设置中配置的最小提交响应的记录)可能包含多个响应,并且每个响应都可以具有 `submitted`、`draft` 或 `discarded` 中的任何状态。

Argilla 文档中了解更多关于查询和过滤记录的信息。

导出到 Hub

我们现在可以将我们的标注导出到 Hugging Face Hub,这样我们就可以与他人分享。为此,我们需要将记录转换为 🤗 数据集,然后将其推送到 Hub

filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")

或者,我们可以像这样直接导出完整的 Argilla 数据集(包括待处理记录)

dataset.to_hub(repo_id="argilla/ag_news_annotated")

如果其他人想在他们的 Argilla 实例中打开数据集,这是一个有趣的选择,因为设置会自动保存,他们只需一行代码即可导入完整的数据集。

dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")
< > 在 GitHub 上更新