数据集查看器文档
mlcroissant
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
mlcroissant
mlcroissant 是一个用于从 Croissant 元数据加载数据集的库。
💡 了解更多关于如何从数据集查看器 API 获取元数据的信息,请查看 获取 Croissant 元数据 指南。
让我们首先解析 tasksource/blog_authorship_corpus
数据集的 Croissant 元数据。请务必首先安装 mlcroissant[parquet]
和 GitPython
,以便能够通过 git+https 协议加载 Parquet 文件。
from mlcroissant import Dataset
ds = Dataset(jsonld="https://huggingface.co/api/datasets/tasksource/blog_authorship_corpus/croissant")
要从第一个子集(在 Croissant 的词汇表中称为 RecordSet)读取数据,请使用 records
函数,该函数返回一个字典的迭代器。
records = ds.records("default")
最后,使用 Pandas 计算您在前 1,000 行上的查询
import itertools
import pandas as pd
df = (
pd.DataFrame(list(itertools.islice(records, 100)))
.groupby("default/sign")["default/text"]
.apply(lambda x: x.str.len().mean())
.sort_values(ascending=False)
.head(5)
)
print(df)
default/sign
b'Leo' 6463.500000
b'Capricorn' 2374.500000
b'Aquarius' 2303.757143
b'Gemini' 1420.333333
b'Aries' 918.666667
Name: default/text, dtype: float64