音频数据集

本指南将向您展示如何使用音频文件配置数据集仓库。您可以在此音频数据集示例集合中找到相应的仓库示例。

具有受支持结构和文件格式的数据集在其 Hub 页面上会自动拥有数据集查看器。

只要您在元数据文件（metadata.csv/metadata.jsonl/metadata.parquet）中包含此信息，有关音频文件的额外信息（例如转录）将自动加载。

或者，音频文件可以是 Parquet 文件或遵循 WebDataset 格式的 TAR 档案。

仅音频文件

如果您的数据集仅包含一列音频，您可以简单地将音频文件存储在根目录下。

my_dataset_repository/
├── 1.wav
├── 2.wav
├── 3.wav
└── 4.wav

或子目录中

my_dataset_repository/
└── audio
    ├── 1.wav
    ├── 2.wav
    ├── 3.wav
    └── 4.wav

同时支持多种格式，包括 AIFF、FLAC、MP3、OGG 和 WAV。

my_dataset_repository/
└── audio
    ├── 1.aiff
    ├── 2.ogg
    ├── 3.mp3
    └── 4.flac

如果您有多个拆分，您可以将音频文件放入相应命名的目录中。

my_dataset_repository/
├── train
│   ├── 1.wav
│   └── 2.wav
└── test
    ├── 3.wav
    └── 4.wav

有关更多信息和按拆分组织数据的其他方法，请参阅文件名和拆分。

附加列

如果您想包含关于数据集的额外信息，例如转录，请将其添加为仓库中的 metadata.csv 文件。这使您可以快速创建用于不同音频任务的数据集，例如文本到语音或自动语音识别。

my_dataset_repository/
├── 1.wav
├── 2.wav
├── 3.wav
├── 4.wav
└── metadata.csv

您的 metadata.csv 文件必须有一个 file_name 列，用于将图像文件与其元数据关联起来。

file_name,animal
1.wav,cat
2.wav,cat
3.wav,dog
4.wav,dog

您也可以使用JSONL文件 `metadata.jsonl`

{"file_name": "1.wav","text": "cat"}
{"file_name": "2.wav","text": "cat"}
{"file_name": "3.wav","text": "dog"}
{"file_name": "4.wav","text": "dog"}

对于更大的数据集，或者如果您对高级数据检索功能感兴趣，可以使用Parquet文件 `metadata.parquet`。

相对路径

元数据文件必须与所链接的音频文件位于同一目录中，或者位于任何父目录中，如本例所示。

my_dataset_repository/
└── test
    ├── audio
    │   ├── 1.wav
    │   ├── 2.wav
    │   ├── 3.wav
    │   └── 4.wav
    └── metadata.csv

在这种情况下，file_name 列必须是音频文件的完整相对路径，而不仅仅是文件名。

file_name,animal
audio/1.wav,cat
audio/2.wav,cat
audio/3.wav,dog
audio/4.wav,dog

元数据文件不能放在包含音频文件的子目录中。

更一般地，任何名为 file_name 或 *_file_name 的列都应包含音频文件的完整相对路径。

在此示例中，test 目录用于设置训练拆分的名称。有关更多信息，请参阅文件名和拆分。

音频分类

对于音频分类数据集，您也可以使用简单设置：使用目录命名音频类别。将音频文件存储在如下目录结构中：

my_dataset_repository/
├── cat
│   ├── 1.wav
│   └── 2.wav
└── dog
    ├── 3.wav
    └── 4.wav

使用此结构创建的数据集包含两列：audio 和 label（值为 cat 和 dog）。

您还可以提供多个拆分。为此，您的数据集目录应具有以下结构（有关更多信息，请参阅文件名和拆分）

my_dataset_repository/
├── test
│   ├── cat
│   │   └── 2.wav
│   └── dog
│       └── 4.wav
└── train
    ├── cat
    │   └── 1.wav
    └── dog
        └── 3.wav

您可以在YAML 配置中禁用 `label` 列的自动添加。如果您的目录名没有特殊含义，请在 README 标头中设置 `drop_labels: true`

configs:
  - config_name: default  # Name of the dataset subset, if applicable.
    drop_labels: true

大规模数据集

WebDataset 格式

WebDataset 格式非常适合大规模音频数据集（例如AlienKevin/sbs_cantonese）。它由包含音频文件及其元数据的 TAR 档案组成，并针对流式传输进行了优化。如果您有大量音频文件并希望为大规模训练获取流式数据加载器，这将非常有用。

my_dataset_repository/
├── train-0000.tar
├── train-0001.tar
├── ...
└── train-1023.tar

要制作 WebDataset TAR 档案，请创建一个包含要归档的音频文件和元数据文件的目录，然后使用例如 tar 命令创建 TAR 档案。每个档案的通常大小约为 1GB。确保每个音频文件和元数据对共享相同的文件前缀，例如：

train-0000/
├── 000.flac
├── 000.json
├── 001.flac
├── 001.json
├── ...
├── 999.flac
└── 999.json

请注意，为了方便用户并启用数据集查看器，Hub 中托管的每个数据集都会自动转换为 Parquet 格式，最高可达 5GB。请在Parquet 格式文档中阅读更多相关信息。

Parquet 格式

您可以将所有音频文件和元数据嵌入到 Parquet 文件中，而不是将它们作为单独的文件上传。如果您有大量音频文件，或者想要嵌入多个音频列，或者想要在同一个文件中存储有关音频的额外信息，这将非常有用。Parquet 还适用于存储原始字节等数据，而 JSON/CSV 不支持这些数据。

my_dataset_repository/
└── train.parquet

可以使用 pandas 或 datasets 库创建包含音频数据的 Parquet 文件。要在 pandas 中创建包含音频数据的 Parquet 文件，您可以使用 pandas-audio-methods 和 df.to_parquet()。在 datasets 中，您可以将列类型设置为 Audio() 并使用 ds.to_parquet(...) 方法或 ds.push_to_hub(...)。您可以在此处找到有关在 datasets 中加载音频数据集的指南。

或者，您可以手动设置使用其他工具创建的 Parquet 的音频类型。首先，确保您的音频列类型为 *struct*，其中包含用于音频数据的二进制字段 "bytes" 和用于音频文件名或路径的字符串字段 "path"。然后，您应该直接在 README 标头中的 YAML 中指定列的特征类型，例如

dataset_info:
  features:
  - name: audio
    dtype: audio
  - name: caption
    dtype: string

请注意，Parquet 推荐用于小型音频文件（每个音频文件小于 1MB）和小型行组（每个行组 100 行，这是 datasets 用于音频的设置）。对于较大的音频文件，建议使用 WebDataset 格式，或共享原始音频文件（可选包含元数据文件）。

< > 在 GitHub 上更新

中心