Hub 文档

使用 🤗 Datasets

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

使用 🤗 Datasets

当您在 Hugging Face Hub 上找到感兴趣的数据集后,可以使用 🤗 Datasets 来加载它。您可以点击 Use this dataset 按钮 来复制代码以加载数据集。

首先,您需要使用您的 Hugging Face 账户登录,例如使用

hf auth login

然后您可以使用以下代码从 Hugging Face Hub 加载数据集

from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

# or load the separate splits if the dataset has train/validation/test splits
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

您也可以将数据集上传到 Hugging Face Hub

my_new_dataset.push_to_hub("username/my_new_dataset")

这会创建一个名为 username/my_new_dataset 的数据集仓库,其中包含了 Parquet 格式的数据集,您之后可以重新加载它。

有关使用 🤗 Datasets 的更多信息,请查看 🤗 Datasets 文档中提供的教程操作指南

< > 在 GitHub 上更新