Wav2Vec2

概述

Wav2Vec2 模型在 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 这篇论文中被提出，作者是 Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli。

论文摘要如下：

我们首次证明，仅从语音音频中学习强大的表示，然后对转录的语音进行微调，可以胜过最佳的半监督方法，同时在概念上更简单。wav2vec 2.0 掩盖了潜在空间中的语音输入，并解决了一个在联合学习的潜在表示的量化上定义的对比任务。使用 Librispeech 的所有标记数据进行的实验在 clean/other 测试集上实现了 1.8/3.3 WER。当将标记数据的量降低到一个小时时，wav2vec 2.0 在 100 小时子集上优于之前的最先进水平，同时使用的标记数据减少了 100 倍。仅使用十分钟的标记数据并在 53k 小时的未标记数据上进行预训练，仍然可以实现 4.8/8.2 WER。这证明了在有限数量的标记数据下进行语音识别的可行性。

此模型由 patrickvonplaten 贡献。

注意：Meta (FAIR) 发布了新版本的 Wav2Vec2-BERT 2.0 - 它在 4.5M 小时的音频上进行了预训练。我们特别推荐将其用于微调任务，例如按照本指南。

使用提示

Wav2Vec2 是一个语音模型，它接受一个浮点数组，对应于语音信号的原始波形。
Wav2Vec2 模型使用连接时序分类 (CTC) 进行训练，因此模型输出必须使用 Wav2Vec2CTCTokenizer 进行解码。

使用 Flash Attention 2

Flash Attention 2 是模型的一个更快、更优化的版本。

安装

首先，检查您的硬件是否与 Flash Attention 2 兼容。兼容硬件的最新列表可以在官方文档中找到。如果您的硬件与 Flash Attention 2 不兼容，您仍然可以通过上面介绍的 Better Transformer 支持中受益于 attention 内核优化。

接下来，安装最新版本的 Flash Attention 2

pip install -U flash-attn --no-build-isolation

用法

要使用 Flash Attention 2 加载模型，我们可以将参数 attn_implementation="flash_attention_2" 传递给 .from_pretrained。我们还将以半精度 (例如 torch.float16) 加载模型，因为它几乎不会降低音频质量，但会显着降低内存使用量并加快推理速度

>>> from transformers import Wav2Vec2Model

model = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-large-960h-lv60-self", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)
...

预期加速

以下是预期加速图表，比较了 facebook/wav2vec2-large-960h-lv60-self 模型的 transformers 中的原生实现与 flash-attention-2 和 sdpa (scale-dot-product-attention) 版本之间的纯推理时间。我们展示了在 librispeech_asr clean 验证集上获得的平均加速。

资源

以下是官方 Hugging Face 和社区（标有 🌎）资源列表，可帮助您开始使用 Wav2Vec2。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！该资源应理想地展示一些新的东西，而不是重复现有资源。

音频分类

一个关于如何利用预训练的 Wav2Vec2 模型进行情感分类的 notebook。🌎
Wav2Vec2ForCTC 通过此示例脚本和notebook支持。
音频分类任务指南

自动语音识别

一篇关于在 🤗 Transformers 中使用 n-gram 提升 Wav2Vec2 性能的博文。
一篇关于如何使用 🤗 Transformers 微调 Wav2Vec2 以进行英语 ASR的博文。
一篇关于使用 🤗 Transformers 微调 XLS-R 以进行多语言 ASR的博文。
一个关于如何通过使用 Wav2Vec2 转录音频，从任何视频创建 YouTube 字幕的 notebook。🌎
Wav2Vec2ForCTC 通过一个关于如何微调英语语音识别模型的 notebook，以及如何微调任何语言的语音识别模型的 notebook 支持。
自动语音识别任务指南

🚀 部署

一篇关于如何使用 Hugging Face 的 Transformers & Amazon SageMaker 部署 Wav2Vec2 以进行自动语音识别的博文。

Transformers

Wav2Vec2

概述

使用提示

使用 Flash Attention 2

安装

用法

预期加速

资源

Wav2Vec2Config

class transformers.Wav2Vec2Config

Wav2Vec2CTCTokenizer

class transformers.Wav2Vec2CTCTokenizer

__call__

save_vocabulary

decode

batch_decode

set_target_lang

Wav2Vec2FeatureExtractor

class transformers.Wav2Vec2FeatureExtractor

__call__

Wav2Vec2Processor

class transformers.Wav2Vec2Processor

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

Wav2Vec2ProcessorWithLM

class transformers.Wav2Vec2ProcessorWithLM

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

解码多个音频

Wav2Vec2 特定输出

class transformers.models.wav2vec2_with_lm.processing_wav2vec2_with_lm.Wav2Vec2DecoderWithLMOutput

class transformers.modeling_outputs.Wav2Vec2BaseModelOutput

class transformers.models.wav2vec2.modeling_wav2vec2.Wav2Vec2ForPreTrainingOutput

class transformers.models.wav2vec2.modeling_flax_wav2vec2.FlaxWav2Vec2BaseModelOutput

replace (替换)

class transformers.models.wav2vec2.modeling_flax_wav2vec2.FlaxWav2Vec2ForPreTrainingOutput

replace (替换)

Wav2Vec2Model

class transformers.Wav2Vec2Model

forward

Wav2Vec2ForCTC

class transformers.Wav2Vec2ForCTC

forward

load_adapter

Wav2Vec2ForSequenceClassification

class transformers.Wav2Vec2ForSequenceClassification

forward

Wav2Vec2ForAudioFrameClassification

class transformers.Wav2Vec2ForAudioFrameClassification

forward

Wav2Vec2ForXVector

class transformers.Wav2Vec2ForXVector

forward

Wav2Vec2ForPreTraining

class transformers.Wav2Vec2ForPreTraining

forward

TFWav2Vec2Model

class transformers.TFWav2Vec2Model

call

TFWav2Vec2ForSequenceClassification

class transformers.TFWav2Vec2ForSequenceClassification

call

TFWav2Vec2ForCTC

class transformers.TFWav2Vec2ForCTC

call

FlaxWav2Vec2Model

class transformers.FlaxWav2Vec2Model

__call__

FlaxWav2Vec2ForCTC

class transformers.FlaxWav2Vec2ForCTC

__call__

call

call

call

call

call

call

call