创建数据集卡片
每个数据集都应该有一个数据集卡片来推广负责任的使用,并告知用户数据集内任何潜在的偏差。这个想法的灵感来自 Mitchell,2018 提出的模型卡片。数据集卡片帮助用户了解数据集的内容、使用数据集的背景、创建方式以及用户应该注意的任何其他事项。
创建数据集卡片很容易,只需几个步骤即可完成
在 Hub 上的您的数据集存储库中,单击**创建数据集卡片**,在您的存储库中创建一个新的
README.md
文件。使用 **元数据 UI** 选择描述您数据集的标签。您可以添加许可证、语言、pretty_name、任务类别、大小类别以及您认为相关的任何其他标签。这些标签有助于用户在 Hub 上发现和查找您的数据集。
有关完整的标签选项(并非必需),您还可以查看 数据集卡规范。它包含一些其他标签选项,例如 `multilinguality` 和 `language_creators`,这些选项非常有用,但并非绝对必要。
点击 **导入数据集卡模板** 链接,自动创建包含所有相关字段的模板以供填写。尽力填写模板中的各个部分。查看 数据集卡创建指南,了解有关在卡的每个部分中包含哪些内容的更详细信息。对于无法完成的字段,您可以写 **[需要更多信息]**。
完成后,将更改提交到 `README.md` 文件,您将在您的仓库中看到完整的数据集卡。
YAML 还允许您通过 定义分割和/或配置 来自定义数据集的加载方式,无需编写任何代码。
可以参考 SNLI、CNN/DailyMail 和 Allociné 数据集卡作为示例,帮助您入门。
< > 在 GitHub 上更新