Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

数据集卡片

什么是数据集卡片?

每个数据集都可以通过仓库中的 README.md 文件进行文档记录。此文件称为数据集卡片,Hugging Face Hub 将在其数据集主页上呈现其内容。为了告知用户如何负责任地使用数据,最好包含有关数据集中任何潜在偏见的信息。通常,数据集卡片帮助用户理解数据集的内容,并为数据集应如何使用提供背景信息。

您还可以将数据集元数据添加到您的卡片中。元数据描述了关于数据集的重要信息,例如其许可证、语言和大小。它还包含标签,以帮助用户在 Hub 上发现数据集,以及数据文件配置选项。标签在 README.md 文件顶部的 YAML 元数据部分中定义。

数据集卡片元数据

数据集仓库会将其 README.md 渲染为数据集卡片。要控制 Hub 如何显示卡片,您应该在 README 文件中创建一个 YAML 部分来定义一些元数据。首先在顶部添加三个 ---,然后包含所有相关的元数据,并用另一组 --- 关闭该部分,如下例所示

language: 
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2

您添加到数据集卡片的元数据启用了 Hub 上的某些交互。例如

在 Hub 上的数据集仓库中创建 README.md 文件时,请使用元数据 UI 填写主要元数据

要查看元数据字段,请参阅详细的数据集卡片规范

数据集卡片创建指南

有关创建数据集卡片的逐步指南,请查看创建数据集卡片指南。

阅读现有的数据集卡片,例如ELI5 数据集卡片,是熟悉常用约定的好方法。

链接论文

如果数据集卡片包含指向 arXiv 上论文的链接,Hub 将提取 arXiv ID 并以 arxiv:<PAPER ID> 格式将其包含在数据集标签中。点击标签将允许您

  • 访问论文页面
  • 筛选 Hub 上引用同一篇论文的其他模型。

在此处阅读更多关于论文页面的信息 here

强制设置数据集模态

Hub 将根据数据集包含的文件(音频、视频、地理空间等)自动检测数据集的模态。如果您想强制指定模态,您可以向数据集卡片元数据添加标签:3daudiogeospatialimagetabulartexttimeseriesvideo

例如,要强制模态为 audio,请将以下内容添加到数据集卡片元数据

tags:
- audio

将库与数据集关联

数据集页面会自动显示能够原生加载数据集的库和工具,但如果您想显示另一个特定库,您可以向数据集卡片元数据添加标签:argilladaskdatasetsdistilabelfiftyonemlcroissantpandaswebdataset。有关更多信息,或提出添加新库的建议,请参阅支持库列表

例如,要将 argilla 库与数据集卡片关联,请将以下内容添加到数据集卡片元数据

tags:
- argilla
< > 在 GitHub 上更新