数据集文档

创建数据集卡片

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

创建数据集卡片

每个数据集都应该有一个数据集卡片,以促进负责任的使用,并告知用户数据集中任何潜在的偏见。这个想法受到了 Mitchell, 2018 提出的模型卡的启发。数据集卡片帮助用户理解数据集的内容、使用数据集的背景、数据集是如何创建的,以及用户应该注意的任何其他考虑事项。

创建数据集卡片很容易,只需几个步骤即可完成

  1. 转到您在 Hub 上的数据集仓库,然后单击 创建数据集卡片 以在您的仓库中创建一个新的 README.md 文件。

  2. 使用 元数据 UI 选择描述您的数据集的标签。您可以添加许可证、语言、pretty_name、task_categories、size_categories 以及您认为相关的任何其他标签。这些标签帮助用户在 Hub 上发现和找到您的数据集。

对于完整但非必需的标签选项集,您还可以查看 数据集卡片规范。这将有一些更多的标签选项,例如 multilingualitylanguage_creators,这些选项很有用但不是绝对必要的。

  1. 单击 导入数据集卡片模板 链接以自动创建一个模板,其中包含所有相关的字段以供填写。尽您所能填写模板部分。查看 数据集卡片创建指南,以获取有关卡片每个部分应包含内容的更详细信息。对于您无法完成的字段,您可以写入 [需要更多信息]

  2. 完成后,提交对 README.md 文件的更改,您将在您的仓库中看到已完成的数据集卡片。

YAML 还允许您通过在 YAML 中定义拆分和/或配置来定制数据集的加载方式,而无需编写任何代码。

随意查看 SNLICNN/DailyMailAllociné 数据集卡片作为示例,以帮助您入门。

< > 在 GitHub 上更新