Datasets 文档
处理音频数据
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
处理音频数据
本指南展示了处理音频数据集的具体方法。了解如何
- 重新采样采样率。
- 将 map() 与音频数据集一起使用。
有关如何处理任何类型数据集的指南,请参阅通用处理指南。
类型转换
cast_column() 函数用于将列转换为要解码的另一个特征。当您将此函数与 Audio 特征一起使用时,您可以重新采样采样率
>>> from datasets import load_dataset, Audio
>>> dataset = load_dataset("PolyAI/minds14", "en-US", split="train")
>>> dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
音频文件会即时解码和重新采样,因此下次您访问示例时,音频文件会重新采样为 16kHz
>>> audio = dataset[0]["audio"]
<datasets.features._torchcodec.AudioDecoder object at 0x11642b6a0>
>>> audio = audio_dataset[0]["audio"]
>>> samples = audio.get_all_samples()
>>> samples.data
tensor([[ 0.0000e+00, 0.0000e+00, 0.0000e+00, ..., 2.3447e-06,
-1.9127e-04, -5.3330e-05]]
>>> samples.sample_rate
16000


映射
map() 函数有助于一次性预处理您的整个数据集。根据您使用的模型类型,您需要加载一个特征提取器或一个处理器。
对于预训练的语音识别模型,加载一个特征提取器和分词器并将它们组合成一个
processor
>>> from transformers import AutoTokenizer, AutoFeatureExtractor, AutoProcessor >>> model_checkpoint = "facebook/wav2vec2-large-xlsr-53" # after defining a vocab.json file you can instantiate a tokenizer object: >>> tokenizer = AutoTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|") >>> feature_extractor = AutoFeatureExtractor.from_pretrained(model_checkpoint) >>> processor = AutoProcessor.from_pretrained(feature_extractor=feature_extractor, tokenizer=tokenizer)
对于微调的语音识别模型,您只需要加载一个
processor
>>> from transformers import AutoProcessor >>> processor = AutoProcessor.from_pretrained("facebook/wav2vec2-base-960h")
当您将 map() 与您的预处理函数一起使用时,包含 audio
列以确保您实际重新采样了音频数据
>>> def prepare_dataset(batch):
... audio = batch["audio"]
... batch["input_values"] = processor(audio.get_all_samples().data, sampling_rate=audio["sampling_rate"]).input_values[0]
... batch["input_length"] = len(batch["input_values"])
... with processor.as_target_processor():
... batch["labels"] = processor(batch["sentence"]).input_ids
... return batch
>>> dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names)