Pandas
Pandas 是一种广泛使用的 Python 数据分析工具包。由于它使用 fsspec 读取和写入远程数据,因此您可以使用 Hugging Face 路径 (hf://
) 在 Hub 上读取和写入数据
首先,您需要 使用您的 Hugging Face 帐户登录,例如使用
huggingface-cli login
然后,您可以 创建一个数据集仓库,例如使用
from huggingface_hub import HfApi
HfApi().create_repo(repo_id="username/my_dataset", repo_type="dataset")
最后,您可以在 Pandas 中使用 Hugging Face 路径
import pandas as pd
df.to_parquet("hf://datasets/username/my_dataset/data.parquet")
# or write in separate files if the dataset has train/validation/test splits
df_train.to_parquet("hf://datasets/username/my_dataset/train.parquet")
df_valid.to_parquet("hf://datasets/username/my_dataset/validation.parquet")
df_test .to_parquet("hf://datasets/username/my_dataset/test.parquet")
这将创建一个包含 Pandas 数据集(以 Parquet 格式)的数据集仓库 username/my_dataset
。您以后可以重新加载它
import pandas as pd
df = pd.read_parquet("hf://datasets/username/my_dataset/data.parquet")
# or read from separate files if the dataset has train/validation/test splits
df_train = pd.read_parquet("hf://datasets/username/my_dataset/train.parquet")
df_valid = pd.read_parquet("hf://datasets/username/my_dataset/validation.parquet")
df_test = pd.read_parquet("hf://datasets/username/my_dataset/test.parquet")
有关 Hugging Face 路径及其实现方式的更多信息,请参阅 客户端库关于 HfFileSystem 的文档。
< > 在 GitHub 上更新