Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

上传数据集

Hub 汇集了大量社区策划和研究数据集。我们鼓励您将数据集分享到 Hub,以帮助壮大 ML 社区,并加速所有人的进步。欢迎所有贡献;添加数据集只需拖放即可!

如果您还没有帐户,请先创建一个 Hugging Face Hub 帐户

使用 Hub UI 上传

Hub 的基于 Web 的界面允许没有任何开发者经验的用户上传数据集。

创建仓库

仓库托管您的所有数据集文件,包括修订历史记录,从而可以存储多个数据集版本。

  1. 点击您的个人资料,然后选择新建数据集以创建一个新的数据集仓库
  2. 为您的数据集选择一个名称,并选择它是公共数据集还是私有数据集。公共数据集对所有人可见,而私有数据集只能由您或您的组织成员查看。

上传数据集

  1. 创建仓库后,导航到文件和版本选项卡以添加文件。选择添加文件以上传您的数据集文件。我们支持多种文本、音频、图像和其他数据扩展名,例如 .csv.mp3.jpg(请参阅文件格式的完整列表)。
  1. 拖放您的数据集文件。
  1. 上传数据集文件后,它们将存储在您的数据集仓库中。

创建数据集卡片

添加数据集卡片对于帮助用户找到您的数据集并了解如何负责任地使用它非常有价值。

  1. 点击创建数据集卡片以创建数据集卡片。此按钮将在您的仓库中创建一个 README.md 文件。
  1. 在顶部,您会看到元数据 UI,其中有多个字段可供选择,例如许可证、语言和任务类别。这些是最重要的标签,可帮助用户在 Hub 上发现您的数据集(如果适用)。当您为字段选择一个选项时,它将自动添加到数据集卡片的顶部。

    您还可以查看数据集卡片规范,其中包含一整套允许的标签,包括可选的标签,如 annotations_creators,以帮助您选择对您的数据集有用的标签。

  1. 在数据集卡片中编写数据集文档,向社区介绍您的数据集,并帮助用户了解其内部内容:用例和局限性是什么、数据来自哪里、重要的伦理考量以及任何其他相关详细信息。

    您可以点击编辑器顶部的导入数据集卡片模板链接,以自动创建数据集卡片模板。有关优秀数据集卡片应有的样式的详细示例,请查看CNN DailyMail 数据集卡片

使用 huggingface_hub 客户端库

huggingface_hub 库中丰富的功能集允许您管理仓库,包括创建仓库和将数据集上传到 Hub。访问客户端库的文档以了解更多信息。

使用其他库

一些库,如 🤗 DatasetsPandasPolarsDaskDuckDB 可以将文件上传到 Hub。请参阅Datasets Hub 支持的库列表以获取更多信息。

使用 Git

由于数据集仓库是 Git 仓库,因此您可以使用 Git 将数据文件推送到 Hub。请按照仓库入门上的指南,了解如何使用 git CLI 提交和推送数据集。

文件格式

Hub 原生支持多种文件格式

  • Parquet (.parquet)
  • CSV (.csv, .tsv)
  • JSON Lines, JSON (.jsonl, .json)
  • Arrow 流式格式 (.arrow)
  • 文本 (.txt)
  • 图像 (.png, .jpg, 等)
  • 音频 (.wav, .mp3, 等)
  • WebDataset (.tar)

它支持使用 ZIP (.zip)、GZIP (.gz)、ZSTD (.zst)、BZ2 (.bz2)、LZ4 (.lz4) 和 LZMA (.xz) 压缩的文件。

图像和音频文件还可以有额外的元数据文件。请参阅关于图像和音频数据集的数据文件配置,以及 示例数据集集合,了解 CSV、TSV 和图像。

您可能需要将文件转换为这些格式,以从 Hub 的所有功能中受益。Hub 可能无法识别其他格式和结构。

我应该使用哪种文件格式?

对于大多数类型的数据集,Parquet 是推荐的格式,因为它具有高效的压缩、丰富的类型,并且各种工具都支持这种格式,并具有优化的读取和批处理操作。或者,CSV 或 JSON Lines/JSON 可用于表格数据(对于嵌套数据,首选 JSON Lines)。虽然与 Parquet 相比,这些格式易于解析,但不建议用于大于几个 GB 的数据。对于图像和音频数据集,上传原始文件对于大多数用例来说是最实用的,因为它易于访问单个文件。对于大规模图像和音频数据集流式传输,应首选 WebDataset 而不是原始图像和音频文件,以避免访问单个文件的开销。但是,对于涉及分析、数据过滤或元数据解析的更通用用例,Parquet 是大规模图像和音频数据集的推荐选项。

Data Studio

Data Studio 可帮助您在下载数据之前了解数据的实际外观。默认情况下,所有公共数据集都启用它。它也适用于 PRO 用户企业 Hub 组织拥有的私有数据集。

上传数据集后,请确保数据集查看器正确显示您的数据,或配置数据集查看器

大规模数据集

Hugging Face Hub 支持大规模数据集,通常以 Parquet 格式上传(例如,通过使用 🤗 Datasetspush_to_hub() )或 WebDataset 格式。

您可以使用 huggingface_hub 库高速上传大规模数据集。

请参阅如何按块上传文件夹大型上传的技巧和窍门以及仓库存储限制和建议

< > 在 GitHub 上更新