使用你的标注数据集

我们现在将学习如何导出和使用我们在 Argilla 中标注的数据。

加载数据集

首先，我们需要确保我们像之前的步骤一样连接到我们的 Argilla 实例

import argilla as rg

HF_TOKEN = "..."  # only for private spaces

client = rg.Argilla(
    api_url="...",
    api_key="...",
    headers={"Authorization": f"Bearer {HF_TOKEN}"},  # only for private spaces
)

现在，我们将加载我们将要使用的数据集

dataset = client.datasets(name="ag_news")

加载数据集并使用 dataset.records 调用其记录足以开始将您的数据集和记录用于您自己的目的和管道。但是，我们还将学习如何执行一些可选操作，例如过滤记录以及将数据集导出到 Hugging Face Hub。

过滤数据集

有时您只想使用已完成的记录，因此我们首先将根据记录的状态过滤数据集中的记录

status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))

filtered_records = dataset.records(status_filter)

⚠️ 请注意，状态为 completed 的记录（即，满足任务分配设置中配置的最小提交响应数的记录）可能具有多个响应，并且每个响应可以具有来自 submitted、draft 或 discarded 的任何状态。

了解更多关于在 Argilla 文档中查询和过滤记录的信息。

导出到 Hub

我们现在可以将我们的标注导出到 Hugging Face Hub，以便我们可以与他人分享。为此，我们需要将记录转换为 🤗 Dataset，然后将其推送到 Hub

filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")

或者，我们可以像这样直接导出完整的 Argilla 数据集（包括待处理记录）

dataset.to_hub(repo_id="argilla/ag_news_annotated")

如果其他人想在他们的 Argilla 实例中打开数据集，这是一个有趣的选择，因为设置会自动保存，他们只需使用单行代码即可导入完整的数据集

dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")

< > 在 GitHub 上更新

LLM 课程

使用你的标注数据集

加载数据集

过滤数据集

导出到 Hub