数据集文档

处理音频数据

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

处理音频数据

本指南展示了处理音频数据集的具体方法。了解如何

  • 重新采样采样率。
  • 使用 map() 与音频数据集。

有关如何处理任何类型数据集的指南,请查看 通用处理指南

转换

使用 cast_column() 函数可以将一列数据转换为另一种需要解码的特征。当您将此函数与 Audio 特征一起使用时,可以重新采样音频的采样率。

>>> from datasets import load_dataset, Audio

>>> dataset = load_dataset("PolyAI/minds14", "en-US", split="train")
>>> dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))

音频文件会即时解码和重新采样,因此下次访问示例时,音频文件会被重新采样到 16kHz。

>>> dataset[0]["audio"]
{'array': array([ 2.3443763e-05,  2.1729663e-04,  2.2145823e-04, ...,
         3.8356509e-05, -7.3497440e-06, -2.1754686e-05], dtype=float32),
 'path': '/root/.cache/huggingface/datasets/downloads/extracted/f14948e0e84be638dd7943ac36518a4cf3324e8b7aa331c5ab11541518e9368c/en-US~JOINT_ACCOUNT/602ba55abb1e6d0fbce92065.wav',
 'sampling_rate': 16000}

映射

map() 函数可以帮助您一次性预处理整个数据集。根据您正在使用的模型类型,您需要加载 特征提取器处理器

  • 对于预训练的语音识别模型,加载特征提取器和分词器,并将它们组合成一个 processor

    >>> from transformers import AutoTokenizer, AutoFeatureExtractor, AutoProcessor
    
    >>> model_checkpoint = "facebook/wav2vec2-large-xlsr-53"
    # after defining a vocab.json file you can instantiate a tokenizer object:
    >>> tokenizer = AutoTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
    >>> feature_extractor = AutoFeatureExtractor.from_pretrained(model_checkpoint)
    >>> processor = AutoProcessor.from_pretrained(feature_extractor=feature_extractor, tokenizer=tokenizer)
  • 对于微调的语音识别模型,您只需要加载一个 processor

    >>> from transformers import AutoProcessor
    
    >>> processor = AutoProcessor.from_pretrained("facebook/wav2vec2-base-960h")

当您将 map() 与您的预处理函数一起使用时,请包含 audio 列以确保您确实在对音频数据进行重新采样。

>>> def prepare_dataset(batch):
...     audio = batch["audio"]
...     batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"]).input_values[0]
...     batch["input_length"] = len(batch["input_values"])
...     with processor.as_target_processor():
...         batch["labels"] = processor(batch["sentence"]).input_ids
...     return batch
>>> dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names)
< > 在 GitHub 上更新