与 JAX 配合使用

本文档是关于如何将 datasets 与 JAX 结合使用的快速入门，特别关注如何从我们的数据集中获取 jax.Array 对象，以及如何使用它们来训练 JAX 模型。

复现上述代码需要 jax 和 jaxlib，因此请确保通过 pip install datasets[jax] 安装它们。

数据集格式

默认情况下，数据集返回常规的 Python 对象：整数、浮点数、字符串、列表等，并且字符串和二进制对象保持不变，因为 JAX 仅支持数字。

要获得 JAX 数组（类似 numpy），您可以将数据集的格式设置为 jax

>>> from datasets import Dataset
>>> data = [[1, 2], [3, 4]]
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("jax")
>>> ds[0]
{'data': DeviceArray([1, 2], dtype=int32)}
>>> ds[:2]
{'data': DeviceArray([
    [1, 2],
    [3, 4]], dtype=int32)}

Dataset 对象是 Arrow 表的包装器，它允许将数据集中的数组快速读取为 JAX 数组。

请注意，完全相同的过程也适用于 DatasetDict 对象，因此当将 DatasetDict 的格式设置为 jax 时，其中的所有 Dataset 都会被格式化为 jax

>>> from datasets import DatasetDict
>>> data = {"train": {"data": [[1, 2], [3, 4]]}, "test": {"data": [[5, 6], [7, 8]]}}
>>> dds = DatasetDict.from_dict(data)
>>> dds = dds.with_format("jax")
>>> dds["train"][:2]
{'data': DeviceArray([
    [1, 2],
    [3, 4]], dtype=int32)}

您需要考虑的另一件事是，格式化操作在您实际访问数据之前不会应用。因此，如果您想从数据集中获取 JAX 数组，您需要先访问数据，否则格式将保持不变。

最后，要将数据加载到您选择的设备上，您可以指定 device 参数，但请注意，不支持 jaxlib.xla_extension.Device，因为它既不能用 pickle 也不能用 dill 序列化，因此您需要改用其字符串标识符。

>>> import jax
>>> from datasets import Dataset
>>> data = [[1, 2], [3, 4]]
>>> ds = Dataset.from_dict({"data": data})
>>> device = str(jax.devices()[0])  # Not casting to `str` before passing it to `with_format` will raise a `ValueError`
>>> ds = ds.with_format("jax", device=device)
>>> ds[0]
{'data': DeviceArray([1, 2], dtype=int32)}
>>> ds[0]["data"].device()
TFRT_CPU_0
>>> assert ds[0]["data"].device() == jax.devices()[0]
True

请注意，如果未向 with_format 提供 device 参数，它将使用默认设备，即 jax.devices()[0]。

N 维数组

如果您的数据集由N维数组组成，您会发现如果形状固定，它们默认被视为相同的张量

>>> from datasets import Dataset
>>> data = [[[1, 2],[3, 4]], [[5, 6],[7, 8]]]  # fixed shape
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("jax")
>>> ds[0]
{'data': Array([[1, 2],
        [3, 4]], dtype=int32)}

>>> from datasets import Dataset
>>> data = [[[1, 2],[3]], [[4, 5, 6],[7, 8]]]  # varying shape
>>> ds = Dataset.from_dict({"data": data})
>>> ds = ds.with_format("jax")
>>> ds[0]
{'data': [Array([1, 2], dtype=int32), Array([3], dtype=int32)]}

然而，这种逻辑通常需要慢速的形状比较和数据复制。为了避免这种情况，您必须明确使用 `Array` 特征类型并指定张量的形状

>>> from datasets import Dataset, Features, Array2D
>>> data = [[[1, 2],[3, 4]],[[5, 6],[7, 8]]]
>>> features = Features({"data": Array2D(shape=(2, 2), dtype='int32')})
>>> ds = Dataset.from_dict({"data": data}, features=features)
>>> ds = ds.with_format("jax")
>>> ds[0]
{'data': Array([[1, 2],
        [3, 4]], dtype=int32)}
>>> ds[:2]
{'data': Array([[[1, 2],
         [3, 4]],
 
        [[5, 6],
         [7, 8]]], dtype=int32)}

其他特征类型

ClassLabel 数据可以正确转换为数组。

>>> from datasets import Dataset, Features, ClassLabel
>>> labels = [0, 0, 1]
>>> features = Features({"label": ClassLabel(names=["negative", "positive"])})
>>> ds = Dataset.from_dict({"label": labels}, features=features)
>>> ds = ds.with_format("jax")
>>> ds[:3]
{'label': DeviceArray([0, 0, 1], dtype=int32)}

字符串和二进制对象保持不变，因为 JAX 仅支持数字。

Image 和 Audio 特征类型也支持。

要使用 Image 特征类型，您需要安装 `vision` 额外依赖：`pip install datasets[vision]`。

>>> from datasets import Dataset, Features, Image
>>> images = ["path/to/image.png"] * 10
>>> features = Features({"image": Image()})
>>> ds = Dataset.from_dict({"image": images}, features=features)
>>> ds = ds.with_format("jax")
>>> ds[0]["image"].shape
(512, 512, 3)
>>> ds[0]
{'image': DeviceArray([[[ 255, 255, 255],
              [ 255, 255, 255],
              ...,
              [ 255, 255, 255],
              [ 255, 255, 255]]], dtype=uint8)}
>>> ds[:2]["image"].shape
(2, 512, 512, 3)
>>> ds[:2]
{'image': DeviceArray([[[[ 255, 255, 255],
              [ 255, 255, 255],
              ...,
              [ 255, 255, 255],
              [ 255, 255, 255]]]], dtype=uint8)}

要使用 Audio 特征类型，您需要安装 `audio` 额外依赖：`pip install datasets[audio]`。

>>> from datasets import Dataset, Features, Audio
>>> audio = ["path/to/audio.wav"] * 10
>>> features = Features({"audio": Audio()})
>>> ds = Dataset.from_dict({"audio": audio}, features=features)
>>> ds = ds.with_format("jax")
>>> ds[0]["audio"]["array"]
DeviceArray([-0.059021  , -0.03894043, -0.00735474, ...,  0.0133667 ,
              0.01809692,  0.00268555], dtype=float32)
>>> ds[0]["audio"]["sampling_rate"]
DeviceArray(44100, dtype=int32, weak_type=True)

数据加载

JAX 没有任何内置的数据加载功能，因此您需要使用像 PyTorch 这样的库，通过 DataLoader 来加载数据，或者使用 TensorFlow 的 tf.data.Dataset。引用 JAX 文档中关于此主题的内容：“JAX 专注于程序转换和加速器支持的 NumPy，所以我们不将数据加载或整理包含在 JAX 库中。已经有很多优秀的数据加载器了，所以我们直接使用它们，而不是重新发明轮子。我们将使用 PyTorch 的数据加载器，并创建一个小小的垫片使其能够处理 NumPy 数组。”

这就是为什么在 datasets 中进行 JAX 格式化如此有用的原因，因为它让您可以使用 HuggingFace Hub 中的任何模型与 JAX，而无需担心数据加载部分。

使用 with_format('jax')

从数据集中获取 JAX 数组最简单的方法是使用 with_format('jax') 方法。假设我们想在 MNIST 数据集上训练一个神经网络，该数据集可在 HuggingFace Hub 的 https://huggingface.co/datasets/mnist 找到。

>>> from datasets import load_dataset
>>> ds = load_dataset("mnist")
>>> ds = ds.with_format("jax")
>>> ds["train"][0]
{'image': DeviceArray([[  0,   0,   0, ...],
                       [  0,   0,   0, ...],
                       ...,
                       [  0,   0,   0, ...],
                       [  0,   0,   0, ...]], dtype=uint8),
 'label': DeviceArray(5, dtype=int32)}

设置格式后，我们可以使用 Dataset.iter() 方法将数据集分批送入 JAX 模型。

>>> for epoch in range(epochs):
...     for batch in ds["train"].iter(batch_size=32):
...         x, y = batch["image"], batch["label"]
...         ...

< > 在 GitHub 上更新