LLM 课程文档
使用您已标注的数据集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
使用您已标注的数据集
现在我们将学习如何导出和使用我们 Argilla 中已标注的数据。
加载数据集
首先,我们需要确保像之前步骤一样,我们已经连接到 Argilla 实例。
import argilla as rg
HF_TOKEN = "..." # only for private spaces
client = rg.Argilla(
api_url="...",
api_key="...",
headers={"Authorization": f"Bearer {HF_TOKEN}"}, # only for private spaces
)
现在,我们将加载我们正在使用的数据集。
dataset = client.datasets(name="ag_news")
加载数据集并使用 `dataset.records` 调用其记录足以开始将您的数据集和记录用于您自己的目的和管道。然而,我们还将学习如何执行一些可选操作,例如过滤记录和将数据集导出到 Hugging Face Hub。
过滤数据集
有时您只想使用已完成的记录,所以我们首先根据记录的状态来过滤数据集中的记录。
status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))
filtered_records = dataset.records(status_filter)
⚠️ 请注意,`completed` 状态的记录(即满足任务分发设置中配置的最小提交响应的记录)可能包含多个响应,并且每个响应都可以具有 `submitted`、`draft` 或 `discarded` 中的任何状态。
在 Argilla 文档中了解更多关于查询和过滤记录的信息。
导出到 Hub
我们现在可以将我们的标注导出到 Hugging Face Hub,这样我们就可以与他人分享。为此,我们需要将记录转换为 🤗 数据集,然后将其推送到 Hub
filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")
或者,我们可以像这样直接导出完整的 Argilla 数据集(包括待处理记录)
dataset.to_hub(repo_id="argilla/ag_news_annotated")
如果其他人想在他们的 Argilla 实例中打开数据集,这是一个有趣的选择,因为设置会自动保存,他们只需一行代码即可导入完整的数据集。
dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")