Datasets 文档
创建数据集卡片
并获得增强的文档体验
开始使用
创建数据集卡片
每个数据集都应该有一张数据集卡片,以促进负责任的使用,并告知用户数据集中存在的任何潜在偏见。这个想法的灵感来自于 Mitchell 等人于 2018 年提出的模型卡片。数据集卡片可以帮助用户了解数据集的内容、使用数据集的背景、数据集的创建方式,以及用户应注意的任何其他考虑因素。
创建数据集卡片非常简单,只需几个步骤即可完成。
转到您在 Hub 上的数据集仓库,点击 Create Dataset Card(创建数据集卡片)以在您的仓库中创建一个新的
README.md
文件。使用 Metadata UI(元数据用户界面)选择描述您数据集的标签。您可以添加许可证、语言、`pretty_name`(美观名称)、`task_categories`(任务类别)、`size_categories`(大小类别)以及您认为相关的任何其他标签。这些标签有助于用户在 Hub 上发现和找到您的数据集。


要查看完整但非必需的标签选项集,您还可以参考数据集卡片规范。其中包含一些更有用但并非绝对必要的标签选项,例如 multilinguality
(多语言性)和 language_creators
(语言创建者)。
点击 Import dataset card template(导入数据集卡片模板)链接,可以自动创建一个包含所有相关待填写字段的模板。请尽您所能填写模板的各个部分。有关卡片各部分应包含内容的更详细信息,请参阅数据集卡片创建指南。对于您无法完成的字段,可以填写 [More Information Needed](需要更多信息)。
完成后,提交对
README.md
文件的更改,您将在您的仓库中看到已完成的数据集卡片。
YAML 还允许您通过定义数据集划分和/或配置来自定义数据集的加载方式,而无需编写任何代码。
您可以随时查看 SNLI、CNN/DailyMail 和 Allociné 数据集卡片作为示例,以帮助您开始。
< > 在 GitHub 上更新