数据集卡片
什么是数据集卡片?
每个数据集都可能由存储库中的README.md
文件进行记录。此文件称为**数据集卡片**,Hugging Face Hub 将在其内容在数据集的主页上呈现。为了告知用户如何负责任地使用数据,最好包含有关数据集中任何潜在偏差的信息。通常,数据集卡片帮助用户了解数据集的内容,并为如何使用数据集提供上下文。
您还可以向卡片添加数据集元数据。元数据描述了有关数据集的重要信息,例如其许可证、语言和大小。它还包含标签以帮助用户在 Hub 上发现数据集,以及数据文件配置选项。标签在README.md
文件顶部的 YAML 元数据部分中定义。
数据集卡片元数据
数据集仓库会将其 README.md 呈现为数据集卡片。要控制 Hub 如何显示卡片,您应该在 README 文件中创建一个 YAML 部分来定义一些元数据。首先在顶部添加三个 ---,然后包含所有相关的元数据,并使用另一组 --- 关闭该部分,如下例所示
language:
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2
您添加到数据集卡片的元数据会在 Hub 上启用某些交互。例如
- 允许用户在https://huggingface.co/datasets过滤和发现数据集。
- 如果您使用此表右列中列出的关键词选择许可证,则该许可证将显示在数据集页面上。
在 Hub 上的数据集存储库中创建 README.md 文件时,使用元数据 UI 填充主要元数据
要查看元数据字段,请参阅详细的数据集卡片规范。
数据集卡片创建指南
有关创建数据集卡片的分步指南,请查看创建数据集卡片指南。
阅读现有的数据集卡片,例如ELI5 数据集卡片,是熟悉常见约定的好方法。
链接论文
如果数据集卡片包含指向 arXiv 上论文的链接,则 Hub 将提取 arXiv ID 并将其以arxiv:<PAPER ID>
的格式包含在数据集标签中。点击标签将允许您
- 访问论文页面
- 筛选 Hub 上引用同一篇论文的其他模型。
阅读更多关于论文页面的信息此处。
强制设置数据集模态
Hub 会根据数据集包含的文件(音频、视频、地理空间等)自动检测数据集的模态。如果您想强制使用特定模态,则可以向数据集卡片元数据添加标签:3d
、audio
、geospatial
、image
、tabular
、text
、timeseries
、video
。
例如,要将模态强制设置为audio
,请将以下内容添加到数据集卡片元数据中
tags:
- audio
将库关联到数据集
数据集页面会自动显示能够原生加载数据集的库和工具,但如果您想显示另一个特定的库,则可以向数据集卡片元数据添加标签:argilla
、dask
、datasets
、distilabel
、fiftyone
、mlcroissant
、pandas
、webdataset
。请参阅支持的库列表以获取更多信息,或建议添加新的库。
例如,要将argilla
库关联到数据集卡片,请将以下内容添加到数据集卡片元数据中
tags:
- argilla