数据集查看器文档

mlcroissant

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

mlcroissant

mlcroissant 是一个用于从 Croissant 元数据加载数据集的库。

💡 了解有关如何从数据集查看器 API 获取元数据的更多信息,请参阅 获取 Croissant 元数据 指南。

让我们首先解析 barilan/blog_authorship_corpus 数据集的 Croissant 元数据。请务必首先安装 mlcroissant[parquet]GitPython 以能够通过 git+https 协议加载 Parquet 文件。

from mlcroissant import Dataset
ds = Dataset(jsonld="https://huggingface.co/api/datasets/barilan/blog_authorship_corpus/croissant")

要从第一个子集(在 Croissant 的词汇表中称为 RecordSet)读取,请使用 records 函数,该函数返回字典的迭代器。

records = ds.records(ds.metadata.record_sets[0].uid)

最后使用 Pandas 对前 1000 行计算您的查询

import itertools

import pandas as pd

df = (
    pd.DataFrame(list(itertools.islice(records, 1000)))
    .groupby("horoscope")["text"]
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)
print(df)
horoscope
b'Sagittarius'    1216.000000
b'Libra'           862.615581
b'Capricorn'       381.269231
b'Cancer'          272.776471
Name: text, dtype: float64
< > 在 GitHub 上更新