LLM 课程文档
使用你的标注数据集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
使用你的标注数据集
我们现在将学习如何导出和使用我们在 Argilla 中标注的数据。
加载数据集
首先,我们需要确保我们像之前的步骤一样连接到我们的 Argilla 实例
import argilla as rg
HF_TOKEN = "..." # only for private spaces
client = rg.Argilla(
api_url="...",
api_key="...",
headers={"Authorization": f"Bearer {HF_TOKEN}"}, # only for private spaces
)
现在,我们将加载我们将要使用的数据集
dataset = client.datasets(name="ag_news")
加载数据集并使用 dataset.records
调用其记录足以开始将您的数据集和记录用于您自己的目的和管道。但是,我们还将学习如何执行一些可选操作,例如过滤记录以及将数据集导出到 Hugging Face Hub。
过滤数据集
有时您只想使用已完成的记录,因此我们首先将根据记录的状态过滤数据集中的记录
status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))
filtered_records = dataset.records(status_filter)
⚠️ 请注意,状态为 completed
的记录(即,满足任务分配设置中配置的最小提交响应数的记录)可能具有多个响应,并且每个响应可以具有来自 submitted
、draft
或 discarded
的任何状态。
了解更多关于在 Argilla 文档中查询和过滤记录的信息。
导出到 Hub
我们现在可以将我们的标注导出到 Hugging Face Hub,以便我们可以与他人分享。为此,我们需要将记录转换为 🤗 Dataset,然后将其推送到 Hub
filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")
或者,我们可以像这样直接导出完整的 Argilla 数据集(包括待处理记录)
dataset.to_hub(repo_id="argilla/ag_news_annotated")
如果其他人想在他们的 Argilla 实例中打开数据集,这是一个有趣的选择,因为设置会自动保存,他们只需使用单行代码即可导入完整的数据集
dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")