数据集文档
创建数据集卡片
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
创建数据集卡片
每个数据集都应该有一个数据集卡片,以促进负责任的使用,并告知用户数据集中任何潜在的偏见。这个想法受到了 Mitchell, 2018 提出的模型卡的启发。数据集卡片帮助用户理解数据集的内容、使用数据集的背景、数据集是如何创建的,以及用户应该注意的任何其他考虑事项。
创建数据集卡片很容易,只需几个步骤即可完成
转到您在 Hub 上的数据集仓库,然后单击 创建数据集卡片 以在您的仓库中创建一个新的
README.md
文件。使用 元数据 UI 选择描述您的数据集的标签。您可以添加许可证、语言、pretty_name、task_categories、size_categories 以及您认为相关的任何其他标签。这些标签帮助用户在 Hub 上发现和找到您的数据集。


对于完整但非必需的标签选项集,您还可以查看 数据集卡片规范。这将有一些更多的标签选项,例如 multilinguality
和 language_creators
,这些选项很有用但不是绝对必要的。
单击 导入数据集卡片模板 链接以自动创建一个模板,其中包含所有相关的字段以供填写。尽您所能填写模板部分。查看 数据集卡片创建指南,以获取有关卡片每个部分应包含内容的更详细信息。对于您无法完成的字段,您可以写入 [需要更多信息]。
完成后,提交对
README.md
文件的更改,您将在您的仓库中看到已完成的数据集卡片。
YAML 还允许您通过在 YAML 中定义拆分和/或配置来定制数据集的加载方式,而无需编写任何代码。
随意查看 SNLI、CNN/DailyMail 和 Allociné 数据集卡片作为示例,以帮助您入门。
< > 在 GitHub 上更新