LLM 课程文档
标注你的数据集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
标注你的数据集
现在是时候开始使用 Argilla UI 来标注我们的数据集了。
使你的团队与标注指南保持一致
在开始标注数据集之前,编写一些指南总是一个好习惯,特别是当你作为团队的一员工作时。这将有助于你在任务和不同标签的使用上保持一致,并在出现问题或冲突时解决它们。
在 Argilla 中,你可以进入 UI 中的数据集设置页面,修改指南和问题描述,以帮助保持一致性。

如果你想深入了解如何编写好的指南,我们建议阅读这篇博客文章以及其中提到的参考文献。
分配任务
在数据集设置页面,你还可以更改数据集分发设置。当你在团队中工作时,这将有助于你更有效地进行标注。提交响应的默认最小值为 1,这意味着一旦一个记录有 1 个提交的响应,它将被视为已完成并计入数据集的进度。
有时,你希望每个记录有多个提交的响应,例如,如果你想分析任务中的标注者间一致性。在这种情况下,请务必将此设置更改为更大的数字,但始终小于或等于标注者的总数。如果你独自完成任务,你希望此设置为 1。
标注记录
💡 如果你在 Hugging Face Space 中部署 Argilla,任何团队成员都可以使用 Hugging Face OAuth 登录。否则,你可能需要按照本指南为他们创建用户。
当你打开数据集时,你会发现第一个问题已经填入了一些建议标签。这是因为在上一节中,我们将名为 `label` 的问题映射到数据集中的 `label_text` 列,因此我们只需查看和更正已有的标签。

对于词元分类,我们需要手动添加所有标签,因为我们没有包含任何建议。这就是跨度标注后的样子。

当你浏览不同的记录时,你可以采取不同的操作:
- 完成记录后,提交你的响应。
- 将它们保存为草稿,以防你以后想回来处理它们。
- 如果记录不应成为数据集的一部分,或者你不会对其进行响应,则将其丢弃。
在下一节中,你将学习如何导出和使用这些标注。
< > 在 GitHub 上更新