Hub 文档

数据集卡片 (Dataset Cards)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

数据集卡片

什么是数据集卡片?

每个数据集都可以通过存储库中的 README.md 文件进行文档说明。此文件称为数据集卡片,Hugging Face Hub 将在其数据集主页上呈现其内容。为了告知用户如何负责任地使用数据,最好包含有关数据集中任何潜在偏差的信息。通常,数据集卡片可帮助用户了解数据集的内容并提供数据集应如何使用的上下文。

您还可以将数据集元数据添加到卡片中。元数据描述了有关数据集的重要信息,例如其许可证、语言和大小。它还包含用于帮助用户在 Hub 上发现数据集的标签,以及数据文件配置选项。标签在 README.md 文件顶部的 YAML 元数据部分中定义。

数据集卡片元数据

数据集仓库会将其 README.md 渲染为数据集卡片。为了控制 Hub 显示卡片的方式,您应该在 README 文件中创建一个 YAML 部分来定义一些元数据。首先在顶部添加三个 ---,然后包含所有相关元数据,最后用另一组 --- 关闭该部分,如下例所示

language: 
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2

您添加到数据集卡片的元数据可以在 Hub 上启用某些交互。例如

  • 允许用户在 https://huggingface.co/datasets 上过滤和发现数据集。
  • 如果您使用此表右列中列出的关键字选择许可证,则该许可证将显示在数据集页面上。

在 Hub 上的数据集存储库中创建 README.md 文件时,请使用元数据 UI 填充主要元数据

要查看元数据字段,请参阅详细的数据集卡片规范

数据集卡片创建指南

有关创建数据集卡片的逐步指南,请参阅创建数据集卡片指南。

阅读现有数据集卡片,例如 ELI5 数据集卡片,是熟悉常见惯例的好方法。

链接论文

如果数据集卡片包含指向 arXiv 论文的链接,Hub 将提取 arXiv ID 并将其以 arxiv:<论文 ID> 的格式包含在数据集标签中。点击标签将允许您

  • 访问论文页面
  • 筛选 Hub 上引用同一论文的其他模型。

在此处了解更多有关论文页面的信息:这里

强制设置数据集模态

Hub 会根据数据集中包含的文件(音频、视频、地理空间等)自动检测数据集的模态。如果您想强制指定特定模态,可以将标签添加到数据集卡片元数据中:3daudiogeospatialimagetabulartexttimeseriesvideo

例如,要强制模态为 audio,请将以下内容添加到数据集卡片元数据中

tags:
- audio

将库与数据集关联

数据集页面会自动显示能够原生加载数据集的库和工具,但如果您想显示另一个特定的库,可以将标签添加到数据集卡片元数据中:argilladaskdatasetsdistilabelfiftyonemlcroissantpandaswebdataset。有关更多信息,请参阅支持库列表,或建议添加新库。

例如,要将 argilla 库与数据集卡片关联,请将以下内容添加到数据集卡片元数据中

tags:
- argilla
< > 在 GitHub 上更新