Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

上传数据集

Hub 是社区整理和研究数据集的丰富集合。我们鼓励您将您的数据集分享到 Hub,以帮助发展 ML 社区,并为每个人加速进展。欢迎所有贡献;添加数据集只需拖放即可!

如果还没有 Hugging Face Hub 帐户,请先 创建一个 Hugging Face Hub 帐户

使用 Hub UI 上传

Hub 的基于 Web 的界面允许没有开发经验的用户上传数据集。

创建存储库

存储库承载所有数据集文件,包括修订历史记录,使存储多个数据集版本成为可能。

  1. 单击您的个人资料并选择**新建数据集**以创建一个 新的数据集存储库
  2. 为您的数据集选择一个名称,并选择它是公开数据集还是私有数据集。公开数据集对任何人都可见,而私有数据集只能由您或您组织的成员查看。

上传数据集

  1. 创建存储库后,导航到**文件和版本**选项卡以添加文件。选择**添加文件**以上传您的数据集文件。我们支持许多文本、音频、图像和其他数据扩展名,例如.csv.mp3.jpg(请查看完整列表的 文件格式)。
  1. 拖放您的数据集文件。
  1. 上传数据集文件后,它们会存储在您的数据集存储库中。

创建数据集卡片

添加数据集卡片对于帮助用户找到您的数据集并了解如何负责任地使用它非常有价值。

  1. 单击**创建数据集卡片**以创建 数据集卡片。此按钮将在您的存储库中创建一个README.md文件。
  1. 在顶部,您将看到**元数据 UI**,其中包含多个可供选择的字段,例如许可证、语言和任务类别。这些是帮助用户在 Hub 上发现您的数据集(在适用时)的最重要标签。选择字段的选项后,它将自动添加到数据集卡片的顶部。

    您还可以查看 数据集卡片规范,其中包含允许标签的完整集,包括可选标签(如annotations_creators),以帮助您选择对您的数据集有用的标签。

  1. 在数据集卡片中编写您的数据集文档,向社区介绍您的数据集,并帮助用户了解内部内容:用例和限制、数据来源、重要的道德注意事项以及任何其他相关详细信息。

    您可以单击编辑器顶部的**导入数据集卡片模板**链接以自动创建一个数据集卡片模板。有关良好数据集卡片外观的详细示例,请查看 CNN DailyMail 数据集卡片

使用 huggingface_hub 客户端库

huggingface_hub 库中的丰富功能集允许您管理存储库,包括创建存储库和将数据集上传到 Hub。访问 客户端库的文档以了解更多信息。

使用其他库

一些库(如 🤗 数据集PandasPolarsDaskDuckDB)可以将文件上传到 Hub。有关更多信息,请查看 数据集 Hub 支持的库 列表。

使用 Git

由于数据集存储库是 Git 存储库,您可以使用 Git 将您的数据文件推送到 Hub。遵循有关 存储库入门 的指南,了解如何使用git CLI 提交和推送您的数据集。

文件格式

Hub 原生支持多种文件格式

  • CSV(.csv,.tsv)
  • JSON Lines、JSON(.jsonl,.json)
  • Parquet(.parquet)
  • Arrow 流式格式(.arrow)
  • 文本(.txt)
  • 图像(.png,.jpg 等)
  • 音频(.wav,.mp3 等)
  • WebDataset(.tar)

它支持使用 ZIP(.zip)、GZIP(.gz)、ZSTD(.zst)、BZ2(.bz2)、LZ4(.lz4)和 LZMA(.xz)压缩的文件。

图像和音频文件也可以有额外的元数据文件。查看有关图像和音频数据集的数据文件配置,以及示例数据集的集合,其中包括 CSV、TSV 和图像。

您可能需要将您的文件转换为这些格式,以利用 Hub 的所有功能。其他格式和结构可能无法被 Hub 识别。

我应该使用哪种文件格式?

对于大多数类型的数据集,Parquet 是推荐的格式,因为它具有高效的压缩、丰富的类型,并且各种工具都支持这种格式,并具有优化的读取和批量操作。或者,CSV 或 JSON Lines/JSON 可用于表格数据(对于嵌套数据,建议使用 JSON Lines)。虽然与 Parquet 相比,这些格式易于解析,但它们不推荐用于大于数 GB 的数据。对于图像和音频数据集,上传原始文件对于大多数用例来说是最实用的,因为可以轻松访问单个文件。对于大规模图像和音频数据集流式传输,WebDataset 应优先于原始图像和音频文件,以避免访问单个文件的开销。虽然对于涉及分析、数据过滤或元数据解析的更一般的用例,Parquet 是大规模图像和音频数据集的推荐选项。

数据集查看器

数据集查看器 非常有用,它可以帮助您在下载数据集之前了解数据实际的样子。它默认情况下对所有公共数据集启用。它也适用于由 PRO 用户企业 Hub 组织 拥有的私有数据集。

上传数据集后,请确保数据集查看器正确显示您的数据,或者配置数据集查看器

大规模数据集

Hugging Face Hub 支持大规模数据集,通常以 Parquet(例如,通过使用🤗 数据集push_to_hub() 上传)或WebDataset 格式上传。

您可以使用 huggingface_hub 库以高速上传大规模数据集。

查看如何按块上传文件夹大型上传的技巧和窍门,以及存储库限制和推荐

< > 在 GitHub 上更新