LLM 课程文档
注释你的数据集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
注释你的数据集
现在是时候开始使用 Argilla UI 来注释我们的数据集了。
使你的团队与注释指南保持一致
在你开始注释数据集之前,编写一些指南始终是一个好的做法,特别是当你是团队合作时。这将帮助你们在任务和不同标签的使用上保持一致,并在出现问题或冲突时解决它们。
在 Argilla 中,你可以转到 UI 中的数据集设置页面,并修改指南和问题描述,以帮助保持一致。

如果你想更深入地了解如何编写好的指南,我们建议阅读这篇博文以及其中提到的参考书目。
分配任务
在数据集设置页面中,你还可以更改数据集分配设置。当你们团队合作时,这将帮助你更有效地进行注释。最小提交响应的默认值为 1,这意味着一旦记录有 1 个提交的响应,它将被视为完成,并计入数据集的进度。
有时,你希望每个记录有多个提交的响应,例如,如果你想分析任务中注释者之间的一致性。在这种情况下,请确保将此设置更改为更高的数字,但始终小于或等于注释者的总数。如果你独自完成任务,你希望此设置为 1。
注释记录
💡 如果你在 Hugging Face Space 中部署 Argilla,任何团队成员都将能够使用 Hugging Face OAuth 登录。否则,你可能需要按照本指南为他们创建用户。
当你打开数据集时,你会意识到第一个问题已经预先填充了一些建议的标签。那是因为在前一节中,我们将名为 label
的问题映射到数据集中的 label_text
列,因此我们只需要查看并更正已存在的标签

对于 token 分类,我们需要手动添加所有标签,因为我们没有包含任何建议。这就是 span 注释后的样子

当你浏览不同的记录时,你可以执行不同的操作
- 提交你的响应,一旦你完成记录。
- 将它们保存为草稿,如果你想稍后返回它们。
- 放弃它们,如果记录不应成为数据集的一部分,或者你不会对其进行响应。
在下一节中,你将学习如何导出和使用这些注释。
< > 在 GitHub 上更新