Datasets 文档

创建数据集卡片

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

创建数据集卡片

每个数据集都应该有一个数据集卡片,以促进负责任的使用并告知用户数据集中的任何潜在偏见。这个想法受到了 Mitchell, 2018 提出的 Model Cards 的启发。数据集卡片可以帮助用户理解数据集的内容、使用数据集的背景、它的创建方式以及用户应该注意的任何其他事项。

创建数据集卡片很容易,只需几个步骤即可完成。

  1. 访问你在 Hub 上的数据集存储库,然后点击“创建数据集卡片”以在你的存储库中创建一个新的 README.md 文件。

  2. 使用“元数据 UI”选择描述你数据集的标签。你可以添加许可证、语言、pretty_name、task_categories、size_categories 以及任何你认为相关的其他标签。这些标签可以帮助用户在 Hub 上发现和查找你的数据集。

对于完整的(但非必需的)标签选项集,你还可以查看 Dataset Card specifications。这将提供更多标签选项,例如 multilingualitylanguage_creators,这些选项很有用但并非绝对必要。

  1. 点击“导入数据集卡片模板”链接,即可自动创建一个包含所有相关字段的模板。尽你所能填写模板中的各个部分。请参阅 Dataset Card Creation Guide 以获取有关卡片每个部分应包含内容的更详细信息。对于你无法填写的内容,你可以写 [信息待补充]

  2. 完成后,提交对 README.md 文件的更改,你将在你的存储库中看到完整的数据集卡片。

YAML 还允许你通过定义 split 和/或 configuration 来自定义数据集的加载方式,而无需编写任何代码。

你可以参考 SNLICNN/DailyMailAllociné 数据集卡片作为示例,以帮助你入门。

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.