Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始使用

Pandas

Pandas 是一种广泛使用的 Python 数据分析工具包。由于它使用 fsspec 读取和写入远程数据,因此您可以使用 Hugging Face 路径 (hf://) 在 Hub 上读取和写入数据

首先,您需要 使用您的 Hugging Face 帐户登录,例如使用

huggingface-cli login

然后,您可以 创建一个数据集仓库,例如使用

from huggingface_hub import HfApi

HfApi().create_repo(repo_id="username/my_dataset", repo_type="dataset")

最后,您可以在 Pandas 中使用 Hugging Face 路径

import pandas as pd

df.to_parquet("hf://datasets/username/my_dataset/data.parquet")

# or write in separate files if the dataset has train/validation/test splits
df_train.to_parquet("hf://datasets/username/my_dataset/train.parquet")
df_valid.to_parquet("hf://datasets/username/my_dataset/validation.parquet")
df_test .to_parquet("hf://datasets/username/my_dataset/test.parquet")

这将创建一个包含 Pandas 数据集(以 Parquet 格式)的数据集仓库 username/my_dataset。您以后可以重新加载它

import pandas as pd

df = pd.read_parquet("hf://datasets/username/my_dataset/data.parquet")

# or read from separate files if the dataset has train/validation/test splits
df_train = pd.read_parquet("hf://datasets/username/my_dataset/train.parquet")
df_valid = pd.read_parquet("hf://datasets/username/my_dataset/validation.parquet")
df_test  = pd.read_parquet("hf://datasets/username/my_dataset/test.parquet")

有关 Hugging Face 路径及其实现方式的更多信息,请参阅 客户端库关于 HfFileSystem 的文档

< > 在 GitHub 上更新