Hub 文档
数据集卡片
并获得增强的文档体验
开始使用
数据集卡片
什么是数据集卡片?
每个数据集都可以通过仓库中的 README.md
文件进行文档记录。此文件称为数据集卡片,Hugging Face Hub 将在其数据集主页上呈现其内容。为了告知用户如何负责任地使用数据,最好包含有关数据集中任何潜在偏见的信息。通常,数据集卡片帮助用户理解数据集的内容,并为数据集应如何使用提供背景信息。
您还可以将数据集元数据添加到您的卡片中。元数据描述了关于数据集的重要信息,例如其许可证、语言和大小。它还包含标签,以帮助用户在 Hub 上发现数据集,以及数据文件配置选项。标签在 README.md
文件顶部的 YAML 元数据部分中定义。
数据集卡片元数据
数据集仓库会将其 README.md 渲染为数据集卡片。要控制 Hub 如何显示卡片,您应该在 README 文件中创建一个 YAML 部分来定义一些元数据。首先在顶部添加三个 ---,然后包含所有相关的元数据,并用另一组 --- 关闭该部分,如下例所示
language:
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2
您添加到数据集卡片的元数据启用了 Hub 上的某些交互。例如
- 允许用户在 https://huggingface.co/datasets 过滤和发现数据集。
- 如果您使用此表右列中列出的关键字选择许可证,则许可证将显示在数据集页面上。
在 Hub 上的数据集仓库中创建 README.md 文件时,请使用元数据 UI 填写主要元数据


要查看元数据字段,请参阅详细的数据集卡片规范。
数据集卡片创建指南
有关创建数据集卡片的逐步指南,请查看创建数据集卡片指南。
阅读现有的数据集卡片,例如ELI5 数据集卡片,是熟悉常用约定的好方法。
链接论文
如果数据集卡片包含指向 arXiv 上论文的链接,Hub 将提取 arXiv ID 并以 arxiv:<PAPER ID>
格式将其包含在数据集标签中。点击标签将允许您
- 访问论文页面
- 筛选 Hub 上引用同一篇论文的其他模型。


在此处阅读更多关于论文页面的信息 here。
强制设置数据集模态
Hub 将根据数据集包含的文件(音频、视频、地理空间等)自动检测数据集的模态。如果您想强制指定模态,您可以向数据集卡片元数据添加标签:3d
、audio
、geospatial
、image
、tabular
、text
、timeseries
、video
。
例如,要强制模态为 audio
,请将以下内容添加到数据集卡片元数据
tags:
- audio
将库与数据集关联
数据集页面会自动显示能够原生加载数据集的库和工具,但如果您想显示另一个特定库,您可以向数据集卡片元数据添加标签:argilla
、dask
、datasets
、distilabel
、fiftyone
、mlcroissant
、pandas
、webdataset
。有关更多信息,或提出添加新库的建议,请参阅支持库列表。
例如,要将 argilla
库与数据集卡片关联,请将以下内容添加到数据集卡片元数据
tags:
- argilla