Pandas

Pandas 是一个用于数据分析的流行 DataFrame 库。

要从单个 Parquet 文件读取数据，请使用 read_parquet 函数将其读取到 DataFrame 中。

import pandas as pd

df = (
    pd.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet")
    .groupby('sign')['text']
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)

要读取多个 Parquet 文件（例如，如果数据集是分片的），您需要使用 concat 函数将这些文件连接成一个 DataFrame。

urls = ["https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet", "https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0001.parquet"]

df = (
      pd.concat([pd.read_parquet(url) for url in urls])
      .groupby('sign')['text']
      .apply(lambda x: x.str.len().mean())
      .sort_values(ascending=False)
      .head(5)
)

< > 在 GitHub 上更新

数据集查看器

Pandas