Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始使用

Dask

Dask 是一个并行和分布式计算库,它扩展了现有的 Python 和 PyData 生态系统。由于它使用 fsspec 来读取和写入远程数据,您可以使用 Hugging Face 路径 (hf://) 在 Hub 上读取和写入数据

首先,您需要 使用您的 Hugging Face 帐户登录,例如使用

huggingface-cli login

然后,您可以 创建一个数据集仓库,例如使用

from huggingface_hub import HfApi

HfApi().create_repo(repo_id="username/my_dataset", repo_type="dataset")

最后,您可以在 Dask 中使用 Hugging Face 路径

import dask.dataframe as dd

df.to_parquet("hf://datasets/username/my_dataset")

# or write in separate directories if the dataset has train/validation/test splits
df_train.to_parquet("hf://datasets/username/my_dataset/train")
df_valid.to_parquet("hf://datasets/username/my_dataset/validation")
df_test .to_parquet("hf://datasets/username/my_dataset/test")

这将创建一个数据集仓库 username/my_dataset,其中包含您的 Dask 数据集(以 Parquet 格式)。您可以稍后重新加载它

import dask.dataframe as dd

df = dd.read_parquet("hf://datasets/username/my_dataset")

# or read from separate directories if the dataset has train/validation/test splits
df_train = dd.read_parquet("hf://datasets/username/my_dataset/train")
df_valid = dd.read_parquet("hf://datasets/username/my_dataset/validation")
df_test  = dd.read_parquet("hf://datasets/username/my_dataset/test")

有关 Hugging Face 路径以及如何实现它们的更多信息,请参阅 客户端库关于 HfFileSystem 的文档

< > 更新 在 GitHub 上