Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

上传数据集

Hub 拥有大量社区整理和研究数据集。我们鼓励您将数据集分享到 Hub,以帮助壮大机器学习社区并加速每个人的进步。欢迎所有贡献;添加数据集只需拖放即可!

如果尚未创建 Hugging Face Hub 帐户,请先创建一个帐户

使用 Hub UI 上传

Hub 的基于 Web 的界面允许没有任何开发经验的用户上传数据集。

创建仓库

仓库包含所有数据集文件,包括修订历史记录,这使得可以存储多个数据集版本。

  1. 单击您的个人资料并选择 New Dataset 以创建新的数据集仓库
  2. 为您的数据集选择一个名称,并选择它是公共数据集还是私有数据集。公共数据集对任何人可见,而私有数据集只能由您或您组织成员查看。

上传数据集

  1. 创建仓库后,导航到 Files and versions 选项卡以添加文件。选择 Add file 上传您的数据集文件。我们支持多种文本、音频、图像和其他数据扩展名,例如 .csv.mp3.jpg(请参阅文件格式的完整列表)。
  1. 拖放您的数据集文件。
  1. 上传数据集文件后,它们会存储在您的数据集仓库中。

创建数据集卡片

添加数据集卡片对于帮助用户找到您的数据集并理解如何负责任地使用它非常有价值。

  1. 点击 Create Dataset Card 以创建数据集卡片。此按钮会在您的仓库中创建 README.md 文件。
  1. 在顶部,您会看到一个 Metadata UI,其中包含多个字段可供选择,例如许可证、语言和任务类别。这些是最重要的标签,可以帮助用户在 Hub 上发现您的数据集(如果适用)。当您为字段选择一个选项时,它会自动添加到数据集卡片的顶部。

    您还可以查看数据集卡片规范,其中包含一套完整的允许标签,包括像 annotations_creators 这样的可选标签,以帮助您选择对您的数据集有用的标签。

  1. 在数据集卡片中编写您的数据集文档,向社区介绍您的数据集,并帮助用户了解其内容:用例和限制是什么,数据来源,重要的伦理考量以及任何其他相关细节。

    您可以点击编辑器顶部的 Import dataset card template 链接,自动创建一个数据集卡片模板。有关优秀数据集卡片应如何的详细示例,请查看CNN DailyMail 数据集卡片

使用 huggingface_hub 客户端库

huggingface_hub 库中丰富的功能集允许您管理仓库,包括创建仓库并将数据集上传到 Hub。访问客户端库的文档以了解更多信息。

使用其他库

一些库,如 🤗 DatasetsPandasPolarsDaskDuckDB 可以将文件上传到 Hub。有关更多信息,请参阅Datasets Hub 支持的库列表。

使用 Git

由于数据集仓库是 Git 仓库,您可以使用 Git 将您的数据文件推送到 Hub。请按照仓库入门指南了解如何使用 git CLI 提交和推送您的数据集。

文件格式

Hub 原生支持多种文件格式

  • Parquet (.parquet)
  • CSV (.csv, .tsv)
  • JSON Lines, JSON (.jsonl, .json)
  • Arrow streaming format (.arrow)
  • Text (.txt)
  • Images (.png, .jpg, etc.)
  • Audio (.wav, .mp3, etc.)
  • PDF (.pdf)
  • WebDataset (.tar)

它支持使用 ZIP (.zip)、GZIP (.gz)、ZSTD (.zst)、BZ2 (.bz2)、LZ4 (.lz4) 和 LZMA (.xz) 压缩的文件。

图像和音频文件还可以拥有额外的元数据文件。请参阅有关图像和音频数据集的数据文件配置,以及 CSV、TSV 和图像的示例数据集集合。

您可能需要将文件转换为这些格式才能利用 Hub 的所有功能。其他格式和结构可能无法被 Hub 识别。

我应该使用哪种文件格式?

对于大多数类型的数据集,**Parquet** 是推荐的格式,因为它具有高效的压缩、丰富的类型以及多种工具支持这种格式并优化了读取和批处理操作。此外,CSV 或 JSON Lines/JSON 可用于表格数据(嵌套数据首选 JSON Lines)。虽然与 Parquet 相比易于解析,但这些格式不建议用于大小超过几 GB 的数据。对于图像和音频数据集,上传原始文件对于大多数用例来说是最实用的,因为可以轻松访问单个文件。对于大规模图像和音频数据集流,**WebDataset** 应优于原始图像和音频文件,以避免访问单个文件的开销。然而,对于涉及分析、数据过滤或元数据解析的更通用用例,Parquet 是大规模图像和音频数据集的推荐选项。

数据工作室

数据工作室对于在下载数据之前了解数据实际外观很有用。默认情况下,所有公共数据集都已启用它。它也适用于PRO 用户企业 Hub 组织拥有的私有数据集。

上传数据集后,请确保数据集查看器正确显示您的数据,或配置数据集查看器

大规模数据集

Hugging Face Hub 支持大规模数据集,通常以 Parquet 格式(例如通过使用 🤗 Datasetspush_to_hub())或 WebDataset 格式上传。

您可以使用 huggingface_hub 库高速上传大规模数据集。

请参阅如何分块上传文件夹大规模上传的技巧和窍门以及仓库存储限制和建议

< > 在 GitHub 上更新