Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

数据集卡片

什么是数据集卡片?

每个数据集都可能由存储库中的README.md文件进行记录。此文件称为**数据集卡片**,Hugging Face Hub 将在其内容在数据集的主页上呈现。为了告知用户如何负责任地使用数据,最好包含有关数据集中任何潜在偏差的信息。通常,数据集卡片帮助用户了解数据集的内容,并为如何使用数据集提供上下文。

您还可以向卡片添加数据集元数据。元数据描述了有关数据集的重要信息,例如其许可证、语言和大小。它还包含标签以帮助用户在 Hub 上发现数据集,以及数据文件配置选项。标签在README.md文件顶部的 YAML 元数据部分中定义。

数据集卡片元数据

数据集仓库会将其 README.md 呈现为数据集卡片。要控制 Hub 如何显示卡片,您应该在 README 文件中创建一个 YAML 部分来定义一些元数据。首先在顶部添加三个 ---,然后包含所有相关的元数据,并使用另一组 --- 关闭该部分,如下例所示

language: 
- "List of ISO 639-1 code for your language"
- lang1
- lang2
pretty_name: "Pretty Name of the Dataset"
tags:
- tag1
- tag2
license: "any valid license identifier"
task_categories:
- task1
- task2

您添加到数据集卡片的元数据会在 Hub 上启用某些交互。例如

在 Hub 上的数据集存储库中创建 README.md 文件时,使用元数据 UI 填充主要元数据

要查看元数据字段,请参阅详细的数据集卡片规范

数据集卡片创建指南

有关创建数据集卡片的分步指南,请查看创建数据集卡片指南。

阅读现有的数据集卡片,例如ELI5 数据集卡片,是熟悉常见约定的好方法。

链接论文

如果数据集卡片包含指向 arXiv 上论文的链接,则 Hub 将提取 arXiv ID 并将其以arxiv:<PAPER ID>的格式包含在数据集标签中。点击标签将允许您

  • 访问论文页面
  • 筛选 Hub 上引用同一篇论文的其他模型。

阅读更多关于论文页面的信息此处

强制设置数据集模态

Hub 会根据数据集包含的文件(音频、视频、地理空间等)自动检测数据集的模态。如果您想强制使用特定模态,则可以向数据集卡片元数据添加标签:3daudiogeospatialimagetabulartexttimeseriesvideo

例如,要将模态强制设置为audio,请将以下内容添加到数据集卡片元数据中

tags:
- audio

将库关联到数据集

数据集页面会自动显示能够原生加载数据集的库和工具,但如果您想显示另一个特定的库,则可以向数据集卡片元数据添加标签:argilladaskdatasetsdistilabelfiftyonemlcroissantpandaswebdataset。请参阅支持的库列表以获取更多信息,或建议添加新的库。

例如,要将argilla库关联到数据集卡片,请将以下内容添加到数据集卡片元数据中

tags:
- argilla
< > 在 GitHub 上更新