Datasets 文档

创建数据集卡片

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

创建数据集卡片

每个数据集都应该有一张数据集卡片,以促进负责任的使用,并告知用户数据集中存在的任何潜在偏见。这个想法的灵感来自于 Mitchell 等人于 2018 年提出的模型卡片。数据集卡片可以帮助用户了解数据集的内容、使用数据集的背景、数据集的创建方式,以及用户应注意的任何其他考虑因素。

创建数据集卡片非常简单,只需几个步骤即可完成。

  1. 转到您在 Hub 上的数据集仓库,点击 Create Dataset Card(创建数据集卡片)以在您的仓库中创建一个新的 README.md 文件。

  2. 使用 Metadata UI(元数据用户界面)选择描述您数据集的标签。您可以添加许可证、语言、`pretty_name`(美观名称)、`task_categories`(任务类别)、`size_categories`(大小类别)以及您认为相关的任何其他标签。这些标签有助于用户在 Hub 上发现和找到您的数据集。

要查看完整但非必需的标签选项集,您还可以参考数据集卡片规范。其中包含一些更有用但并非绝对必要的标签选项,例如 multilinguality(多语言性)和 language_creators(语言创建者)。

  1. 点击 Import dataset card template(导入数据集卡片模板)链接,可以自动创建一个包含所有相关待填写字段的模板。请尽您所能填写模板的各个部分。有关卡片各部分应包含内容的更详细信息,请参阅数据集卡片创建指南。对于您无法完成的字段,可以填写 [More Information Needed](需要更多信息)。

  2. 完成后,提交对 README.md 文件的更改,您将在您的仓库中看到已完成的数据集卡片。

YAML 还允许您通过定义数据集划分和/或配置来自定义数据集的加载方式,而无需编写任何代码。

您可以随时查看 SNLICNN/DailyMailAllociné 数据集卡片作为示例,以帮助您开始。

< > 在 GitHub 上更新