数据集查看器文档

cuDF

Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始

cuDF

cuDF 是一个 Python GPU DataFrame 库。

要从单个 Parquet 文件读取,请使用 read_parquet 函数将其读入 DataFrame

import cudf

df = (
    cudf.read_parquet("https://huggingface.co/datasets/barilan/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/blog_authorship_corpus/train/0000.parquet")
    .groupby('horoscope')['text']
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)

要读取多个 Parquet 文件(例如,如果数据集已分片),您需要使用 dask-cudf

import dask
import dask.dataframe as dd

dask.config.set({"dataframe.backend": "cudf"})

df = (
    dd.read_parquet("https://huggingface.co/datasets/barilan/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/blog_authorship_corpus/train/*.parquet")
)
< > 在 GitHub 上更新