数据集查看器文档

Pandas

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Pandas

Pandas 是一个流行的数据分析 DataFrame 库。

要从单个 Parquet 文件读取数据,请使用 read_parquet 函数将其读取到 DataFrame 中

import pandas as pd

df = (
    pd.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet")
    .groupby('sign')['text']
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)

要读取多个 Parquet 文件(例如,如果数据集已分片),您需要使用 concat 函数将这些文件连接成一个 DataFrame

urls = ["https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet", "https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0001.parquet"]

df = (
      pd.concat([pd.read_parquet(url) for url in urls])
      .groupby('sign')['text']
      .apply(lambda x: x.str.len().mean())
      .sort_values(ascending=False)
      .head(5)
)
< > 在 GitHub 上更新