数据集查看器文档

Pandas

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

Pandas

Pandas 是一个流行的数据分析 DataFrame 库。

要从单个 Parquet 文件读取,请使用 read_parquet 函数将其读入 DataFrame

import pandas as pd

df = (
    pd.read_parquet("https://huggingface.co/datasets/barilan/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/blog_authorship_corpus/train/0000.parquet")
    .groupby('horoscope')['text']
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)

要读取多个 Parquet 文件 - 例如,如果数据集已分片 - 您需要使用 concat 函数将文件连接到单个 DataFrame 中

df = (
      pd.concat([pd.read_parquet(url) for url in urls])
      .groupby('horoscope')['text']
      .apply(lambda x: x.str.len().mean())
      .sort_values(ascending=False)
      .head(5)
)
< > 在 GitHub 上更新