数据集文档
与 NumPy 一起使用
并获得增强的文档体验
开始使用
与 NumPy 一起使用
本文档快速介绍了如何将 datasets
与 NumPy 结合使用,特别关注如何从我们的数据集中获取 numpy.ndarray
对象,以及如何使用它们来训练基于 NumPy 的模型,例如 scikit-learn
模型。
数据集格式
默认情况下,数据集返回常规 Python 对象:整数、浮点数、字符串、列表等。
要获取 NumPy 数组,你可以将数据集的格式设置为 numpy
>>> from datasets import Dataset
>>> data = [[1, 2], [3, 4]]
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([1, 2])}
>>> ds[:2]
{'data': array([
[1, 2],
[3, 4]])}
Dataset 对象是 Arrow 表的包装器,它允许从数据集中的数组快速读取到 NumPy 数组。
请注意,相同的过程适用于 DatasetDict
对象,因此当将 DatasetDict
的格式设置为 numpy
时,那里的所有 Dataset
都将格式化为 numpy
>>> from datasets import DatasetDict
>>> data = {"train": {"data": [[1, 2], [3, 4]]}, "test": {"data": [[5, 6], [7, 8]]}}
>>> dds = DatasetDict.from_dict(data)
>>> dds = dds.with_format("numpy")
>>> dds["train"][:2]
{'data': array([
[1, 2],
[3, 4]])}
N 维数组
如果你的数据集由 N 维数组组成,你会看到默认情况下,如果形状固定,它们被认为是相同的数组
>>> from datasets import Dataset
>>> data = [[[1, 2],[3, 4]], [[5, 6],[7, 8]]] # fixed shape
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([[1, 2],
[3, 4]])}
>>> from datasets import Dataset
>>> data = [[[1, 2],[3]], [[4, 5, 6],[7, 8]]] # varying shape
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([array([1, 2]), array([3])], dtype=object)}
然而,这种逻辑通常需要缓慢的形状比较和数据复制。为了避免这种情况,你必须显式使用 Array
特征类型并指定张量的形状
>>> from datasets import Dataset, Features, Array2D
>>> data = [[[1, 2],[3, 4]],[[5, 6],[7, 8]]]
>>> features = Features({"data": Array2D(shape=(2, 2), dtype='int32')})
>>> ds = Dataset.from_dict({"data": data}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[0]
{'data': array([[1, 2],
[3, 4]])}
>>> ds[:2]
{'data': array([[[1, 2],
[3, 4]],
[[5, 6],
[7, 8]]])}
其他特征类型
ClassLabel 数据已正确转换为数组
>>> from datasets import Dataset, Features, ClassLabel
>>> labels = [0, 0, 1]
>>> features = Features({"label": ClassLabel(names=["negative", "positive"])})
>>> ds = Dataset.from_dict({"label": labels}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[:3]
{'label': array([0, 0, 1])}
字符串和二进制对象保持不变,因为 NumPy 仅支持数字。
要使用 Image 特征类型,你需要安装 vision
扩展,如 pip install datasets[vision]
。
>>> from datasets import Dataset, Features, Image
>>> images = ["path/to/image.png"] * 10
>>> features = Features({"image": Image()})
>>> ds = Dataset.from_dict({"image": images}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[0]["image"].shape
(512, 512, 3)
>>> ds[0]
{'image': array([[[ 255, 255, 255],
[ 255, 255, 255],
...,
[ 255, 255, 255],
[ 255, 255, 255]]], dtype=uint8)}
>>> ds[:2]["image"].shape
(2, 512, 512, 3)
>>> ds[:2]
{'image': array([[[[ 255, 255, 255],
[ 255, 255, 255],
...,
[ 255, 255, 255],
[ 255, 255, 255]]]], dtype=uint8)}
要使用 Audio 特征类型,你需要安装 audio
扩展,如 pip install datasets[audio]
。
>>> from datasets import Dataset, Features, Audio
>>> audio = ["path/to/audio.wav"] * 10
>>> features = Features({"audio": Audio()})
>>> ds = Dataset.from_dict({"audio": audio}, features=features)
>>> ds = ds.with_format("numpy")
>>> ds[0]["audio"]["array"]
array([-0.059021 , -0.03894043, -0.00735474, ..., 0.0133667 ,
0.01809692, 0.00268555], dtype=float32)
>>> ds[0]["audio"]["sampling_rate"]
array(44100, weak_type=True)
数据加载
NumPy 没有内置的数据加载功能,因此你需要将 NumPy 数组物化,如 X, y
以在 scikit-learn
中使用,或者使用诸如 PyTorch 之类的库,使用 DataLoader
加载你的数据。
使用 with_format('numpy')
从数据集中获取 NumPy 数组的最简单方法是使用 with_format('numpy')
方法。假设我们想在 MNIST 数据集 上训练神经网络,该数据集可在 HuggingFace Hub 的 https://huggingface.co/datasets/mnist 获取。
>>> from datasets import load_dataset
>>> ds = load_dataset("mnist")
>>> ds = ds.with_format("numpy")
>>> ds["train"][0]
{'image': array([[ 0, 0, 0, ...],
[ 0, 0, 0, ...],
...,
[ 0, 0, 0, ...],
[ 0, 0, 0, ...]], dtype=uint8),
'label': array(5)}
一旦格式设置完成,我们可以使用 Dataset.iter()
方法以批次形式将数据集馈送到基于 NumPy 的模型中
>>> for epoch in range(epochs):
... for batch in ds["train"].iter(batch_size=32):
... x, y = batch["image"], batch["label"]
... ...