使用 🤗 数据集
在 Hugging Face Hub 上找到一个有趣的数据集后,您可以使用 🤗 Datasets 加载该数据集。您可以点击 在数据集库中使用 按钮 以复制加载数据集的代码。
首先,您需要 使用您的 Hugging Face 帐户登录,例如使用
huggingface-cli login
然后,您可以使用以下方法从 Hugging Face Hub 加载数据集:
from datasets import load_dataset
dataset = load_dataset("username/my_dataset")
# or load the separate splits if the dataset has train/validation/test splits
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset = load_dataset("username/my_dataset", split="test")
您还可以将数据集上传到 Hugging Face Hub
my_new_dataset.push_to_hub("username/my_new_dataset")
这将创建一个包含您的数据集(Parquet 格式)的数据集存储库 username/my_new_dataset
,您可以稍后重新加载它。
有关使用 🤗 Datasets 的更多信息,请查看 🤗 Datasets 文档中提供的 教程 和 操作指南。
< > 更新 于 GitHub