数据集查看器文档
Pandas
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Pandas
Pandas 是一个流行的数据分析 DataFrame 库。
要从单个 Parquet 文件读取数据,请使用 read_parquet
函数将其读取到 DataFrame 中
import pandas as pd
df = (
pd.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet")
.groupby('sign')['text']
.apply(lambda x: x.str.len().mean())
.sort_values(ascending=False)
.head(5)
)
要读取多个 Parquet 文件(例如,如果数据集已分片),您需要使用 concat
函数将这些文件连接成一个 DataFrame
urls = ["https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet", "https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0001.parquet"]
df = (
pd.concat([pd.read_parquet(url) for url in urls])
.groupby('sign')['text']
.apply(lambda x: x.str.len().mean())
.sort_values(ascending=False)
.head(5)
)