Datasets 文档
从 Hub 加载数据集
并获得增强的文档体验
开始使用
从 Hub 加载数据集
寻找高质量、可复现且易于访问的数据集可能很困难。🤗 Datasets 的主要目标之一是提供一种简单的方式来加载任何格式或类型的数据集。最简单的入门方法是在 Hugging Face Hub 上发现现有数据集——这是一个社区驱动的、面向 NLP、计算机视觉和音频任务的数据集集合——并使用 🤗 Datasets 下载和生成数据集。
本教程使用了 rotten_tomatoes 和 MInDS-14 数据集,但你可以随意加载任何你想要的数据集并跟随进行。现在就前往 Hub 找到适合你任务的数据集!
加载数据集
在花费时间下载数据集之前,快速了解数据集的通用信息通常很有帮助。数据集的信息存储在 DatasetInfo 中,可能包含数据集描述、特征和数据集大小等信息。
使用 load_dataset_builder() 函数加载一个数据集构建器,并在不承诺下载的情况下检查数据集的属性。
>>> from datasets import load_dataset_builder
>>> ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
# Inspect dataset description
>>> ds_builder.info.description
Movie Review Dataset. This is a dataset of containing 5,331 positive and 5,331 negative processed sentences from Rotten Tomatoes movie reviews. This data was first used in Bo Pang and Lillian Lee, ``Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales.'', Proceedings of the ACL, 2005.
# Inspect dataset features
>>> ds_builder.info.features
{'label': ClassLabel(names=['neg', 'pos']),
'text': Value('string')}如果你对数据集满意,那么使用 load_dataset() 来加载它。
>>> from datasets import load_dataset
>>> dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")数据集拆分
拆分是指数据集的特定子集,例如 train 和 test。使用 get_dataset_split_names() 函数可以列出数据集的拆分名称。
>>> from datasets import get_dataset_split_names
>>> get_dataset_split_names("cornell-movie-review-data/rotten_tomatoes")
['train', 'validation', 'test']然后你可以使用 split 参数加载特定的拆分。加载数据集的 split 会返回一个 Dataset 对象。
>>> from datasets import load_dataset
>>> dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")
>>> dataset
Dataset({
features: ['text', 'label'],
num_rows: 8530
})如果你不指定 split,🤗 Datasets 会返回一个 DatasetDict 对象。
>>> from datasets import load_dataset
>>> dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes")
DatasetDict({
train: Dataset({
features: ['text', 'label'],
num_rows: 8530
})
validation: Dataset({
features: ['text', 'label'],
num_rows: 1066
})
test: Dataset({
features: ['text', 'label'],
num_rows: 1066
})
})配置
一些数据集包含多个子数据集。例如,MInDS-14 数据集有多个子数据集,每个子数据集包含不同语言的音频数据。这些子数据集被称为配置或子集,在加载数据集时你必须明确选择一个。如果你不提供配置名称,🤗 Datasets 将引发一个 ValueError 并提醒你选择一个配置。
使用 get_dataset_config_names() 函数来检索你的数据集所有可用配置的列表。
>>> from datasets import get_dataset_config_names
>>> configs = get_dataset_config_names("PolyAI/minds14")
>>> print(configs)
['cs-CZ', 'de-DE', 'en-AU', 'en-GB', 'en-US', 'es-ES', 'fr-FR', 'it-IT', 'ko-KR', 'nl-NL', 'pl-PL', 'pt-PT', 'ru-RU', 'zh-CN', 'all']然后加载你想要的配置。
>>> from datasets import load_dataset
>>> mindsFR = load_dataset("PolyAI/minds14", "fr-FR", split="train")