Datasets 文档

配合 NumPy 使用

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

与 NumPy 结合使用

本文档是对使用 datasets 与 NumPy 结合使用的快速介绍,重点介绍如何从数据集中获取 numpy.ndarray 对象,以及如何使用它们来训练基于 NumPy 的模型(例如 scikit-learn 模型)。

数据集格式

默认情况下,数据集返回常规的 Python 对象:整数、浮点数、字符串、列表等。

若要改为获取 NumPy 数组,您可以将数据集的格式设置为 numpy

>>> from datasets import Dataset
>>> data = [[1, 2], [3, 4]]
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([1, 2])}
>>> ds[:2]
{'data': array([
    [1, 2],
    [3, 4]])}

Dataset 对象是一个 Arrow 表的包装器,它可以实现从数据集数组到 NumPy 数组的快速读取。

请注意,完全相同的步骤也适用于 DatasetDict 对象,因此当将 DatasetDict 的格式设置为 numpy 时,其中所有的 Dataset 都将被格式化为 numpy

>>> from datasets import DatasetDict
>>> data = {"train": {"data": [[1, 2], [3, 4]]}, "test": {"data": [[5, 6], [7, 8]]}}
>>> dds = DatasetDict.from_dict(data)
>>> dds = dds.with_format("numpy")
>>> dds["train"][:2]
{'data': array([
    [1, 2],
    [3, 4]])}

N 维数组

如果您的数据集由 N 维数组组成,您会发现如果形状(shape)固定,默认情况下它们被视为同一个数组

>>> from datasets import Dataset
>>> data = [[[1, 2],[3, 4]], [[5, 6],[7, 8]]]  # fixed shape
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([[1, 2],
        [3, 4]])}
>>> from datasets import Dataset
>>> data = [[[1, 2],[3]], [[4, 5, 6],[7, 8]]]  # varying shape
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([array([1, 2]), array([3])], dtype=object)}

然而,这种逻辑通常需要慢速的形状比较和数据复制。为了避免这种情况,您必须明确使用 `Array` 特征类型并指定张量的形状

>>> from datasets import Dataset, Features, Array2D
>>> data = [[[1, 2],[3, 4]],[[5, 6],[7, 8]]]
>>> features = Features({"data": Array2D(shape=(2, 2), dtype='int32')})
>>> ds = Dataset.from_dict({"data": data}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([[1, 2],
        [3, 4]])}
>>> ds[:2]
{'data': array([[[1, 2],
         [3, 4]],
 
        [[5, 6],
         [7, 8]]])}

其他特征类型

ClassLabel 数据会被正确地转换为数组

>>> from datasets import Dataset, Features, ClassLabel
>>> labels = [0, 0, 1]
>>> features = Features({"label": ClassLabel(names=["negative", "positive"])})
>>> ds = Dataset.from_dict({"label": labels}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[:3]
{'label': array([0, 0, 1])}

字符串和二进制对象保持不变,因为 NumPy 仅支持数值。

ImageAudio 特征类型同样得到支持。

要使用 Image 特征类型,您需要安装 vision 扩展:pip install datasets[vision]

>>> from datasets import Dataset, Features, Image
>>> images = ["path/to/image.png"] * 10
>>> features = Features({"image": Image()})
>>> ds = Dataset.from_dict({"image": images}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[0]["image"].shape
(512, 512, 3)
>>> ds[0]
{'image': array([[[ 255, 255, 255],
              [ 255, 255, 255],
              ...,
              [ 255, 255, 255],
              [ 255, 255, 255]]], dtype=uint8)}
>>> ds[:2]["image"].shape
(2, 512, 512, 3)
>>> ds[:2]
{'image': array([[[[ 255, 255, 255],
              [ 255, 255, 255],
              ...,
              [ 255, 255, 255],
              [ 255, 255, 255]]]], dtype=uint8)}

要使用 Audio 特征类型,您需要安装 audio 扩展:pip install datasets[audio]

>>> from datasets import Dataset, Features, Audio
>>> audio = ["path/to/audio.wav"] * 10
>>> features = Features({"audio": Audio()})
>>> ds = Dataset.from_dict({"audio": audio}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[0]["audio"]["array"]
array([-0.059021  , -0.03894043, -0.00735474, ...,  0.0133667 ,
              0.01809692,  0.00268555], dtype=float32)
>>> ds[0]["audio"]["sampling_rate"]
array(44100, weak_type=True)

数据加载

NumPy 本身没有内置的数据加载能力,因此您要么需要将 NumPy 数组实例化(例如 X, y)以在 scikit-learn 中使用,要么使用 PyTorch 等库通过 DataLoader 来加载数据。

使用 with_format('numpy')

从数据集中获取 NumPy 数组最简单的方法是使用 with_format('numpy') 方法。假设我们想在 HuggingFace Hub 上的 MNIST 数据集(地址:https://huggingface.co/datasets/mnist)上训练一个神经网络。

>>> from datasets import load_dataset
>>> ds = load_dataset("ylecun/mnist")
>>> ds = ds.with_format("numpy")
>>> ds["train"][0]
{'image': array([[  0,   0,   0, ...],
                       [  0,   0,   0, ...],
                       ...,
                       [  0,   0,   0, ...],
                       [  0,   0,   0, ...]], dtype=uint8),
 'label': array(5)}

一旦设置好格式,我们就可以使用 Dataset.iter() 方法将数据集以批次(batches)的形式馈送给基于 NumPy 的模型

>>> for epoch in range(epochs):
...     for batch in ds["train"].iter(batch_size=32):
...         x, y = batch["image"], batch["label"]
...         ...
在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.