数据集特征

Features 定义了数据集的内部结构。它用于指定底层的序列化格式。不过，对你来说更有趣的是，Features 包含了关于从列名和类型到 ClassLabel 的所有高级信息。你可以将 Features 视为数据集的骨架。

Features 的格式很简单：dict[column_name, column_type]。它是一个由列名和列类型对组成的字典。列类型提供了广泛的选项来描述你拥有的数据类型。

让我们来看看 GLUE 基准测试中 MRPC 数据集的特征

>>> from datasets import load_dataset
>>> dataset = load_dataset('nyu-mll/glue', 'mrpc', split='train')
>>> dataset.features
{'idx': Value('int32'),
 'label': ClassLabel(names=['not_equivalent', 'equivalent']),
 'sentence1': Value('string'),
 'sentence2': Value('string'),
}

Value 特征告诉 🤗 Datasets

idx 的数据类型是 int32。
sentence1 和 sentence2 的数据类型是 string。

🤗 Datasets 支持许多其他数据类型，例如 bool、float32 和 binary 等。

有关支持的数据类型的完整列表，请参阅 Value。

ClassLabel 特征告知 🤗 Datasets label 列包含两个类别。这些类别被标记为 not_equivalent 和 equivalent。标签在数据集中以整数形式存储。当你检索标签时，ClassLabel.int2str() 和 ClassLabel.str2int() 会执行从整数值到标签名称的转换，反之亦然。

如果你的数据类型包含对象列表，那么你需要使用 List 特征。还记得 SQuAD 数据集吗？

>>> from datasets import load_dataset
>>> dataset = load_dataset('rajpurkar/squad', split='train')
>>> dataset.features
{'id': Value('string'),
 'title': Value('string'),
 'context': Value('string'),
 'question': Value('string'),
 'answers': {'text': List(Value('string')),
  'answer_start': List(Value('int32'))}}

answers 字段是使用特征字典构建的，因为它包含两个子字段 text 和 answer_start，它们分别是 string 和 int32 的列表。

请参阅展平（flatten）部分，了解如何将嵌套的子字段提取为独立的列。

数组特征类型对于创建各种大小的数组很有用。你可以使用 Array2D 创建二维数组，甚至可以使用 Array5D 创建五维数组。

>>> features = Features({'a': Array2D(shape=(1, 3), dtype='int32')})

数组类型还允许数组的第一个维度是动态的。这对于处理可变长度的序列（例如句子）非常有用，而无需将输入填充或截断为统一的形状。

>>> features = Features({'a': Array3D(shape=(None, 5, 2), dtype='int32')})

音频特征

音频数据集有一列类型为 Audio，其中包含三个重要字段

array：解码后的音频数据，表示为一维数组。
path：下载的音频文件的路径。
sampling_rate：音频数据的采样率。

当你加载一个音频数据集并调用音频列时，Audio 特征会自动解码并重采样音频文件

>>> from datasets import load_dataset, Audio

>>> dataset = load_dataset("PolyAI/minds14", "en-US", split="train")
>>> dataset[0]["audio"]
<datasets.features._torchcodec.AudioDecoder object at 0x11642b6a0>

使用行索引先索引音频数据集，然后再索引 audio 列 - dataset[0]["audio"] - 以避免解码和重采样数据集中的所有音频文件。否则，如果你的数据集很大，这可能是一个缓慢且耗时的过程。

使用 `decode=False`，Audio 类型只会提供音频文件的路径或字节，而不会将其解码为 `torchcodec.AudioDecoder` 对象，

>>> dataset = load_dataset("PolyAI/minds14", "en-US", split="train").cast_column("audio", Audio(decode=False))
>>> dataset[0]
{'audio': {'bytes': None,
  'path': '/root/.cache/huggingface/datasets/downloads/extracted/f14948e0e84be638dd7943ac36518a4cf3324e8b7aa331c5ab11541518e9368c/en-US~JOINT_ACCOUNT/602ba55abb1e6d0fbce92065.wav'},
 'english_transcription': 'I would like to set up a joint account with my partner',
 'intent_class': 11,
 'lang_id': 4,
 'path': '/root/.cache/huggingface/datasets/downloads/extracted/f14948e0e84be638dd7943ac36518a4cf3324e8b7aa331c5ab11541518e9368c/en-US~JOINT_ACCOUNT/602ba55abb1e6d0fbce92065.wav',
 'transcription': 'I would like to set up a joint account with my partner'}

图像特征

图像数据集有一个类型为 Image 的列，它会从以字节形式存储的图像中加载 `PIL.Image` 对象

当你加载一个图像数据集并调用图像列时，Image 特征会自动解码图像文件

>>> from datasets import load_dataset, Image

>>> dataset = load_dataset("AI-Lab-Makerere/beans", split="train")
>>> dataset[0]["image"]
<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x500 at 0x125506CF8>

使用行索引先索引图像数据集，然后再索引 `image` 列 - `dataset[0]["image"]` - 以避免解码数据集中的所有图像文件。否则，如果你的数据集很大，这可能是一个缓慢且耗时的过程。

使用 `decode=False`，Image 类型只会提供图像文件的路径或字节，而不会将其解码为 `PIL.Image` 对象，

>>> dataset = load_dataset("AI-Lab-Makerere/beans", split="train").cast_column("image", Image(decode=False))
>>> dataset[0]["image"]
{'bytes': None,
 'path': '/Users/username/.cache/huggingface/datasets/downloads/extracted/772e7c1fba622cff102b85dd74bcce46e8168634df4eaade7bedd3b8d91d3cd7/train/healthy/healthy_train.265.jpg'}

根据数据集的不同，你可能会得到本地下载图像的路径，或者如果数据集不是由单个文件组成的，则会得到图像内容的字节。

你还可以从 numpy 数组定义一个图像数据集

>>> ds = Dataset.from_dict({"i": [np.zeros(shape=(16, 16, 3), dtype=np.uint8)]}, features=Features({"i": Image()}))

在这种情况下，numpy 数组会被编码为 PNG（如果像素值的精度很重要，则为 TIFF）。

对于像 RGB 或 RGBA 这样的多通道数组，仅支持 uint8。如果使用更高的精度，你会收到一个警告，并且数组会被向下转型为 uint8。对于灰度图像，只要它与 `Pillow` 兼容，你可以使用你想要的整数或浮点精度。如果你的图像整数或浮点精度太高，会显示一个警告，在这种情况下数组会被向下转型：int64 数组会被向下转型为 int32，float64 数组会被向下转型为 float32。

< > 在 GitHub 上更新