从 Hub 加载数据集

找到高质量、可复现且易于访问的数据集可能很困难。🤗 Datasets 的主要目标之一是提供一种简单的方法来加载任何格式或类型的数据集。最简单的入门方法是在 Hugging Face Hub 上发现现有的数据集 - 这是一个社区驱动的数据集集合，用于 NLP、计算机视觉和音频任务 - 并使用 🤗 Datasets 下载和生成数据集。

本教程使用 rotten_tomatoes 和 MInDS-14 数据集，但您可以随意加载任何您想要的数据集并跟随学习。现在就前往 Hub，为您的任务找到一个数据集！

加载数据集

在您花时间下载数据集之前，快速获取有关数据集的一些常规信息通常很有帮助。数据集的信息存储在 DatasetInfo 中，可以包括数据集描述、特征和数据集大小等信息。

使用 load_dataset_builder() 函数加载数据集构建器并检查数据集的属性，而无需提交下载

>>> from datasets import load_dataset_builder
>>> ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")

# Inspect dataset description
>>> ds_builder.info.description
Movie Review Dataset. This is a dataset of containing 5,331 positive and 5,331 negative processed sentences from Rotten Tomatoes movie reviews. This data was first used in Bo Pang and Lillian Lee, ``Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales.'', Proceedings of the ACL, 2005.

# Inspect dataset features
>>> ds_builder.info.features
{'label': ClassLabel(names=['neg', 'pos'], id=None),
 'text': Value(dtype='string', id=None)}

如果您对数据集感到满意，则使用 load_dataset() 加载它

>>> from datasets import load_dataset

>>> dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")

拆分

拆分是数据集的特定子集，例如 train 和 test。使用 get_dataset_split_names() 函数列出数据集的拆分名称

>>> from datasets import get_dataset_split_names

>>> get_dataset_split_names("cornell-movie-review-data/rotten_tomatoes")
['train', 'validation', 'test']

然后，您可以使用 split 参数加载特定的拆分。加载数据集 split 会返回一个 Dataset 对象

>>> from datasets import load_dataset

>>> dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes", split="train")
>>> dataset
Dataset({
    features: ['text', 'label'],
    num_rows: 8530
})

如果您不指定 split，🤗 Datasets 将返回一个 DatasetDict 对象

>>> from datasets import load_dataset

>>> dataset = load_dataset("cornell-movie-review-data/rotten_tomatoes")
DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 8530
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 1066
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1066
    })
})

配置

某些数据集包含多个子数据集。例如，MInDS-14 数据集有多个子数据集，每个子数据集包含不同语言的音频数据。这些子数据集被称为配置或子集，您在加载数据集时必须显式选择一个。如果您不提供配置名称，🤗 Datasets 将引发 ValueError 并提醒您选择配置。

使用 get_dataset_config_names() 函数检索您的数据集可用的所有可能配置的列表

>>> from datasets import get_dataset_config_names

>>> configs = get_dataset_config_names("PolyAI/minds14")
>>> print(configs)
['cs-CZ', 'de-DE', 'en-AU', 'en-GB', 'en-US', 'es-ES', 'fr-FR', 'it-IT', 'ko-KR', 'nl-NL', 'pl-PL', 'pt-PT', 'ru-RU', 'zh-CN', 'all']

然后加载您想要的配置

>>> from datasets import load_dataset

>>> mindsFR = load_dataset("PolyAI/minds14", "fr-FR", split="train")

远程代码

某些数据集仓库包含一个加载脚本，其中包含用于生成数据集的 Python 代码。上传到 Hub 的所有文件和代码都会进行恶意软件扫描（有关更多信息，请参阅 Hub 安全文档），但您仍应查看数据集加载脚本和作者，以避免在您的机器上执行恶意代码。您应该设置 trust_remote_code=True 以使用带有加载脚本的数据集，否则您将收到错误

>>> from datasets import get_dataset_config_names, get_dataset_split_names, load_dataset

>>> c4 = load_dataset("c4", "en", split="train", trust_remote_code=True)
>>> get_dataset_config_names("c4", trust_remote_code=True)
['en', 'realnewslike', 'en.noblocklist', 'en.noclean']
>>> get_dataset_split_names("c4", "en", trust_remote_code=True)
['train', 'validation']

出于安全原因，默认情况下 🤗 Datasets 不允许运行数据集加载脚本，您必须传递 trust_remote_code=True 才能加载需要运行数据集脚本的数据集。

< > 在 GitHub 上更新