mlcroissant
mlcroissant 是一个用于从 Croissant 元数据加载数据集的库。
💡 了解有关如何从数据集查看器 API 获取元数据的更多信息,请参阅 获取 Croissant 元数据 指南。
让我们首先解析 barilan/blog_authorship_corpus
数据集的 Croissant 元数据。请务必首先安装 mlcroissant[parquet]
和 GitPython
以能够通过 git+https 协议加载 Parquet 文件。
from mlcroissant import Dataset
ds = Dataset(jsonld="https://huggingface.co/api/datasets/barilan/blog_authorship_corpus/croissant")
要从第一个子集(在 Croissant 的词汇表中称为 RecordSet)读取,请使用 records
函数,该函数返回字典的迭代器。
records = ds.records(ds.metadata.record_sets[0].uid)
最后使用 Pandas 对前 1000 行计算您的查询
import itertools
import pandas as pd
df = (
pd.DataFrame(list(itertools.islice(records, 1000)))
.groupby("horoscope")["text"]
.apply(lambda x: x.str.len().mean())
.sort_values(ascending=False)
.head(5)
)
print(df)
horoscope
b'Sagittarius' 1216.000000
b'Libra' 862.615581
b'Capricorn' 381.269231
b'Cancer' 272.776471
Name: text, dtype: float64