Datasets 文档
创建音频数据集
并获得增强的文档体验
开始使用
创建音频数据集
你可以通过在 Hugging Face Hub 上创建数据集仓库来与你的团队或社区中的任何人共享数据集。
from datasets import load_dataset
dataset = load_dataset("<username>/my_dataset")有几种方法可以创建和共享音频数据集。
使用 Dataset.push_to_hub() 在 Python 中从本地文件创建音频数据集。这是一种简单的方法,只需在 Python 中完成几个步骤即可。
使用
AudioFolder构建器创建音频数据集仓库。这是一种无需编码的解决方案,可以快速创建包含数千个音频文件的音频数据集。
您可以通过要求用户先共享他们的联系信息来控制对数据集的访问。有关如何在 Hub 上启用此功能的更多信息,请参阅受保护的数据集指南。
本地文件
你可以使用音频文件的路径来加载自己的数据集。使用 cast_column() 函数来处理一个包含音频文件路径的列,并将其转换为 Audio 特征。
>>> audio_dataset = Dataset.from_dict({"audio": ["path/to/audio_1", "path/to/audio_2", ..., "path/to/audio_n"]}).cast_column("audio", Audio())
>>> audio_dataset[0]["audio"]
<datasets.features._torchcodec.AudioDecoder object at 0x11642b6a0>然后使用 Dataset.push_to_hub() 将数据集上传到 Hugging Face Hub。
audio_dataset.push_to_hub("<username>/my_dataset")这将创建一个包含你的音频数据集的数据集仓库。
my_dataset/
├── README.md
└── data/
└── train-00000-of-00001.parquetAudioFolder
AudioFolder 是一个数据集构建器,旨在快速加载包含数千个音频文件的音频数据集,而无需你编写任何代码。
💡 查看 Split pattern hierarchy 以了解更多关于
AudioFolder如何根据你的数据集仓库结构创建数据集拆分的信息。
AudioFolder 根据目录名自动推断数据集的类标签。将你的数据集存储在类似以下的目录结构中:
folder/train/dog/golden_retriever.mp3
folder/train/dog/german_shepherd.mp3
folder/train/dog/chihuahua.mp3
folder/train/cat/maine_coon.mp3
folder/train/cat/bengal.mp3
folder/train/cat/birman.mp3如果数据集遵循 AudioFolder 结构,那么你可以直接使用 load_dataset() 加载它。
>>> from datasets import load_dataset
>>> dataset = load_dataset("username/dataset_name")这等同于在 load_dataset() 中手动传入 audiofolder 和 data_dir 中的目录。
>>> dataset = load_dataset("audiofolder", data_dir="/path/to/folder")你也可以使用 audiofolder 加载涉及多个拆分的数据集。要做到这一点,你的数据集目录应该具有以下结构:
folder/train/dog/golden_retriever.mp3
folder/train/cat/maine_coon.mp3
folder/test/dog/german_shepherd.mp3
folder/test/cat/bengal.mp3如果所有音频文件都包含在单个目录中,或者它们不在同一目录结构级别上,则不会自动添加
label列。如果你需要它,请明确设置drop_labels=False。
如果您想包含有关数据集的额外信息,例如文本标题或边界框,请将其添加为文件夹中的 metadata.csv 文件。这使您可以快速创建用于不同计算机视觉任务(如文本字幕或目标检测)的数据集。您也可以使用 JSONL 文件 metadata.jsonl 或 Parquet 文件 metadata.parquet。
folder/train/metadata.csv
folder/train/0001.mp3
folder/train/0002.mp3
folder/train/0003.mp3你也可以压缩你的音频文件,在这种情况下,每个 zip 文件都应同时包含音频文件和元数据。
folder/train.zip
folder/test.zip
folder/validation.zip你的 metadata.csv 文件必须有一个 file_name 或 *_file_name 字段,该字段将音频文件与其元数据链接起来。
file_name,additional_feature
0001.mp3,This is a first value of a text feature you added to your audio files
0002.mp3,This is a second value of a text feature you added to your audio files
0003.mp3,This is a third value of a text feature you added to your audio files或使用 metadata.jsonl
{"file_name": "0001.mp3", "additional_feature": "This is a first value of a text feature you added to your audio files"}
{"file_name": "0002.mp3", "additional_feature": "This is a second value of a text feature you added to your audio files"}
{"file_name": "0003.mp3", "additional_feature": "This is a third value of a text feature you added to your audio files"}这里的 file_name 必须是元数据旁边音频文件的名称。更一般地说,它必须是从包含元数据的目录到音频文件的相对路径。
在你的数据集中,每行可以指向多个音频,例如,如果你的输入和输出都是音频文件。
{"input_file_name": "0001.mp3", "output_file_name": "0001_output.mp3"}
{"input_file_name": "0002.mp3", "output_file_name": "0002_output.mp3"}
{"input_file_name": "0003.mp3", "output_file_name": "0003_output.mp3"}你还可以定义音频文件列表。在这种情况下,你需要将字段命名为 file_names 或 *_file_names。这是一个例子:
{"recordings_file_names": ["0001_r0.mp3", "0001_r1.mp3"], label: "same_person"}
{"recordings_file_names": ["0002_r0.mp3", "0002_r1.mp3"], label: "same_person"}
{"recordings_file_names": ["0003_r0.mp3", "0003_r1.mp3"], label: "different_person"}WebDataset
WebDataset 格式基于 TAR 存档,适用于大型音频数据集。事实上,你可以将音频文件分组到 TAR 存档中(例如,每个 TAR 存档包含 1GB 的音频文件),并且有数千个 TAR 存档。
folder/train/00000.tar
folder/train/00001.tar
folder/train/00002.tar
...在归档文件中,每个示例由共享相同前缀的文件组成
e39871fd9fd74f55.mp3
e39871fd9fd74f55.json
f18b91585c4d3f3e.mp3
f18b91585c4d3f3e.json
ede6e66b2fb59aab.mp3
ede6e66b2fb59aab.json
ed600d57fcee4f94.mp3
ed600d57fcee4f94.json
...你可以使用 JSON 或文本文件等格式来放置你的音频文件标签/标题/边界框。
加载你的 WebDataset,它将为每个文件后缀(此处为“mp3”和“json”)创建一个列。
>>> from datasets import load_dataset
>>> dataset = load_dataset("webdataset", data_dir="/path/to/folder", split="train")
>>> dataset[0]["json"]
{"transcript": "Hello there !", "speaker": "Obi-Wan Kenobi"}也可以像这样让每个示例包含多个音频文件。
e39871fd9fd74f55.input.mp3
e39871fd9fd74f55.output.mp3
e39871fd9fd74f55.json
f18b91585c4d3f3e.input.mp3
f18b91585c4d3f3e.output.mp3
f18b91585c4d3f3e.json
...有关 WebDataset 格式和 Python 库的更多详情,请查阅 WebDataset 文档。
在 GitHub 上更新