Dask
Dask 是一个并行和分布式计算库,它扩展了现有的 Python 和 PyData 生态系统。由于它使用 fsspec 来读取和写入远程数据,您可以使用 Hugging Face 路径 (hf://
) 在 Hub 上读取和写入数据
首先,您需要 使用您的 Hugging Face 帐户登录,例如使用
huggingface-cli login
然后,您可以 创建一个数据集仓库,例如使用
from huggingface_hub import HfApi
HfApi().create_repo(repo_id="username/my_dataset", repo_type="dataset")
最后,您可以在 Dask 中使用 Hugging Face 路径
import dask.dataframe as dd
df.to_parquet("hf://datasets/username/my_dataset")
# or write in separate directories if the dataset has train/validation/test splits
df_train.to_parquet("hf://datasets/username/my_dataset/train")
df_valid.to_parquet("hf://datasets/username/my_dataset/validation")
df_test .to_parquet("hf://datasets/username/my_dataset/test")
这将创建一个数据集仓库 username/my_dataset
,其中包含您的 Dask 数据集(以 Parquet 格式)。您可以稍后重新加载它
import dask.dataframe as dd
df = dd.read_parquet("hf://datasets/username/my_dataset")
# or read from separate directories if the dataset has train/validation/test splits
df_train = dd.read_parquet("hf://datasets/username/my_dataset/train")
df_valid = dd.read_parquet("hf://datasets/username/my_dataset/validation")
df_test = dd.read_parquet("hf://datasets/username/my_dataset/test")
有关 Hugging Face 路径以及如何实现它们的更多信息,请参阅 客户端库关于 HfFileSystem 的文档。
< > 更新 在 GitHub 上