Wav2Vec2-BERT

概述

Wav2Vec2-BERT 模型由 Meta AI 的 Seamless Communication 团队在 Seamless: 多语言表达流式语音翻译中提出。

该模型在涵盖超过 143 种语言的 450 万小时未标记音频数据上进行了预训练。它需要微调才能用于下游任务，例如自动语音识别 (ASR) 或音频分类。

模型的官方结果可以在论文的 3.2.1 节中找到。

论文摘要如下：

自动语音翻译的最新进展极大地扩展了语言覆盖范围，提高了多模态能力，并实现了广泛的任务和功能。尽管如此，当今的大规模自动语音翻译系统缺乏关键功能，这些功能有助于机器辅助通信在与人际对话相比时感觉无缝。在这项工作中，我们引入了一系列模型，可以以流式方式实现端到端表达性和多语言翻译。首先，我们贡献了大规模多语言多模态 SeamlessM4T 模型的改进版本——SeamlessM4T v2。这个更新的模型融合了更新的 UnitY2 框架，在更多低资源语言数据上进行了训练。SeamlessAlign 的扩展版本增加了 114,800 小时的自动对齐数据，总共涵盖 76 种语言。SeamlessM4T v2 为我们两个最新模型 SeamlessExpressive 和 SeamlessStreaming 的启动奠定了基础。SeamlessExpressive 实现了保留人声风格和韵律的翻译。与以往表达性语音研究的努力相比，我们的工作解决了韵律的一些未充分探索的方面，例如语速和停顿，同时还保留了语音的风格。至于 SeamlessStreaming，我们的模型利用高效单调多头注意力 (EMMA) 机制，在不等待完整的源话语的情况下生成低延迟目标翻译。作为首创，SeamlessStreaming 实现了多源和目标语言的同步语音到语音/文本翻译。为了了解这些模型的性能，我们结合了现有自动指标的新颖和修改版本来评估韵律、延迟和鲁棒性。对于人工评估，我们调整了现有协议，以衡量意义、自然度和表达性保留中最相关的属性。为了确保我们的模型可以安全负责地使用，我们实施了首次已知的多模态机器翻译红队工作，一个检测和缓解增加毒性的系统，一个系统的性别偏见评估，以及一个旨在抑制深度伪造影响的不可听局部水印机制。因此，我们将 SeamlessExpressive 和 SeamlessStreaming 的主要组件结合起来，形成 Seamless，这是第一个公开可用的系统，可实现实时的富有表现力的跨语言通信。总之，Seamless 让我们对将通用语音翻译器从科幻概念变为现实世界技术所需的技术基础有了关键的了解。最后，这项工作的贡献——包括模型、代码和水印检测器——已公开发布，可通过以下链接访问。

此模型由 ylacombe 贡献。原始代码可在此处找到。

使用提示

Wav2Vec2-BERT 遵循 Wav2Vec2-Conformer 的相同架构，但采用因果深度卷积层，并使用音频的梅尔频谱图表示作为输入，而不是原始波形。
Wav2Vec2-BERT 可以通过设置正确的 config.position_embeddings_type 来使用无相对位置嵌入、类似 Shaw 的位置嵌入、类似 Transformer-XL 的位置嵌入或旋转位置嵌入。
Wav2Vec2-BERT 还引入了基于 Conformer 的适配器网络，而不是简单的卷积网络。

资源

自动语音识别

Wav2Vec2BertForCTC 支持此示例脚本。
您还可以根据这些 Jupyter Notebook 进行调整：如何微调英语语音识别模型，以及如何在任何语言中微调语音识别模型。

音频分类

Wav2Vec2BertForSequenceClassification 可以通过改编此示例脚本来使用。
另请参阅：音频分类任务指南

Wav2Vec2BertConfig

class transformers.Wav2Vec2BertConfig

< 来源 >

( vocab_size = None hidden_size = 1024 num_hidden_layers = 24 num_attention_heads = 16 intermediate_size = 4096 feature_projection_input_dim = 160 hidden_act = 'swish' hidden_dropout = 0.0 activation_dropout = 0.0 attention_dropout = 0.0 feat_proj_dropout = 0.0 final_dropout = 0.1 layerdrop = 0.1 initializer_range = 0.02 layer_norm_eps = 1e-05 apply_spec_augment = True mask_time_prob = 0.05 mask_time_length = 10 mask_time_min_masks = 2 mask_feature_prob = 0.0 mask_feature_length = 10 mask_feature_min_masks = 0 ctc_loss_reduction = 'sum' ctc_zero_infinity = False use_weighted_layer_sum = False classifier_proj_size = 768 tdnn_dim = (512, 512, 512, 512, 1500) tdnn_kernel = (5, 3, 3, 1, 1) tdnn_dilation = (1, 2, 3, 1, 1) xvector_output_dim = 512 pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 add_adapter = False adapter_kernel_size = 3 adapter_stride = 2 num_adapter_layers = 1 adapter_act = 'relu' use_intermediate_ffn_before_adapter = False output_hidden_size = None position_embeddings_type = 'relative_key' rotary_embedding_base = 10000 max_source_positions = 5000 left_max_position_embeddings = 64 right_max_position_embeddings = 8 conv_depthwise_kernel_size = 31 conformer_conv_dropout = 0.1 **kwargs )

参数

vocab_size (int, 可选) — Wav2Vec2Bert 模型的词汇表大小。定义了调用 Wav2Vec2BertModel 时可以通过 inputs_ids 表示的不同 token 的数量。模型的词汇表大小。定义了传递给 Wav2Vec2BertModel 的 forward 方法的 inputs_ids 可以表示的不同 token。
hidden_size (int, 可选, 默认为 1024) — 编码器层和池化层的维度。
num_hidden_layers (int, 可选, 默认为 24) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, 可选, 默认为 16) — Transformer 编码器中每个注意力层的注意力头数量。
intermediate_size (int, 可选, 默认为 4096) — Transformer 编码器中“中间”（即前馈）层的维度。
feature_projection_input_dim (int, 可选, 默认为 160) — 此模型的输入维度，即使用 SeamlessM4TFeatureExtractor 或 Wav2Vec2BertProcessor 处理输入音频后的维度。
hidden_act (str 或 function, 可选, 默认为 "swish") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，则支持 "gelu", "relu", "selu", "swish" 和 "gelu_new"。
hidden_dropout (float, 可选, 默认为 0.0) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。
activation_dropout (float, 可选, 默认为 0.0) — 全连接层内部激活的 dropout 比率。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
feat_proj_dropout (float, 可选, 默认为 0.0) — 特征投影的 dropout 概率。
final_dropout (float, 可选, 默认为 0.1) — Wav2Vec2BertForCTC 最终投影层的 dropout 概率。
layerdrop (float, 可选, 默认为 0.1) — LayerDrop 概率。更多详情请参阅 [LayerDrop 论文](参见 https://huggingface.co/papers/1909.11556)。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选, 默认为 1e-05) — 层归一化层使用的 epsilon 值。
apply_spec_augment (bool, 可选, 默认为 True) — 是否对特征编码器的输出应用 SpecAugment 数据增强。参考 SpecAugment: 一种用于自动语音识别的简单数据增强方法。
mask_time_prob (float, 可选, 默认为 0.05) — 时间轴上所有特征向量被遮蔽的百分比（0 到 1 之间）。遮蔽过程在轴上生成 mask_time_prob*len(time_axis)/mask_time_length ``个独立遮蔽。如果根据每个特征向量被选为要遮蔽的向量跨度起点的概率进行推理，*mask_time_prob* 应该是 prob_vector_start*mask_time_length。请注意，重叠可能会减少实际遮蔽向量的百分比。这仅在 apply_spec_augment 为 True` 时相关。
mask_time_length (int, 可选, 默认为 10) — 沿时间轴的向量跨度长度。
mask_time_min_masks (int, 可选, 默认为 2) — 沿时间轴生成的长度为 mask_feature_length 的最小遮罩数量，每个时间步都独立于 mask_feature_prob。仅在 mask_time_prob*len(time_axis)/mask_time_length < mask_time_min_masks 时相关。
mask_feature_prob (float, 可选, 默认为 0.0) — 沿特征轴的所有特征向量被遮蔽的百分比（0 到 1 之间）。遮蔽过程在轴上生成 mask_feature_prob*len(feature_axis)/mask_time_length 个独立遮蔽。如果根据每个特征向量被选为要遮蔽的向量跨度起点的概率进行推理，*mask_feature_prob* 应该是 prob_vector_start*mask_feature_length。请注意，重叠可能会减少实际遮蔽向量的百分比。这仅在 apply_spec_augment 为 True 时相关。
mask_feature_length (int, 可选, 默认为 10) — 沿特征轴的向量跨度长度。
mask_feature_min_masks (int, 可选, 默认为 0) — 沿特征轴生成的长度为 mask_feature_length 的最小遮罩数量，每个时间步都独立于 mask_feature_prob。仅在 mask_feature_prob*len(feature_axis)/mask_feature_length < mask_feature_min_masks 时相关。
ctc_loss_reduction (str, 可选, 默认为 "sum") — 指定应用于 torch.nn.CTCLoss 输出的归约方式。仅在训练 Wav2Vec2BertForCTC 实例时相关。
ctc_zero_infinity (bool, 可选, 默认为 False) — 是否将无限损失和 torch.nn.CTCLoss 的相关梯度置零。无限损失主要发生在输入太短而无法与目标对齐时。仅在训练 Wav2Vec2BertForCTC 实例时相关。
use_weighted_layer_sum (bool, 可选, 默认为 False) — 是否使用带学习权重的层输出的加权平均。仅在使用 Wav2Vec2BertForSequenceClassification 实例时相关。
classifier_proj_size (int, 可选, 默认为 768) — 用于分类的 token 均值池化前的投影维度。
tdnn_dim (tuple[int] 或 list[int], 可选, 默认为 (512, 512, 512, 512, 1500)) — 定义 XVector 模型中 TDNN 模块每个 1D 卷积层输出通道数的整数元组。tdnn_dim 的长度定义了 TDNN 层的数量。
tdnn_kernel (tuple[int] 或 list[int], 可选, 默认为 (5, 3, 3, 1, 1)) — 定义 XVector 模型中 TDNN 模块每个 1D 卷积层核大小的整数元组。tdnn_kernel 的长度必须与 tdnn_dim 的长度匹配。
tdnn_dilation (tuple[int] 或 list[int], 可选, 默认为 (1, 2, 3, 1, 1)) — 定义 XVector 模型中 TDNN 模块每个 1D 卷积层扩张因子的整数元组。tdnn_dilation 的长度必须与 tdnn_dim 的长度匹配。
xvector_output_dim (int, 可选, 默认为 512) — XVector 嵌入向量的维度。
pad_token_id (int, 可选, 默认为 0) — 流开始标记的 ID。
bos_token_id (int, 可选, 默认为 1) — 填充标记的 ID。
eos_token_id (int, 可选, 默认为 2) — 流结束标记的 ID。
add_adapter (bool, 可选, 默认为 False) — 是否在 Wav2Vec2Bert 编码器之上堆叠一个卷积注意力网络。对于 SpeechEncoderDecoder 模型的热启动 Wav2Vec2Bert 非常有用。
adapter_kernel_size (int, 可选, 默认为 3) — 适配器网络中卷积层的核大小。仅在 add_adapter 为 True 时相关。
adapter_stride (int, 可选, 默认为 2) — 适配器网络中卷积层的步长。仅在 add_adapter 为 True 时相关。
num_adapter_layers (int, 可选, 默认为 1) — 适配器网络中应使用的卷积层数。仅在 add_adapter 为 True 时相关。
adapter_act (str 或 function, 可选, 默认为 "relu") — 适配器层中的非线性激活函数（函数或字符串）。如果是字符串，支持 "gelu", "relu", "selu", "swish" 和 "gelu_new"。
use_intermediate_ffn_before_adapter (bool, 可选, 默认为 False) — 是否在 Wav2Vec2Bert 编码器之上、适配器网络之前堆叠一个中间前馈块。仅在 add_adapter 为 True 时相关。
output_hidden_size (int, 可选) — 编码器输出层的维度。如果未定义，则默认为 隐藏大小。仅在 add_adapter 为 True 时相关。
position_embeddings_type (str, 可选, 默认为 "relative_key") — 可指定为：
- rotary，用于旋转位置嵌入。
- relative，用于相对位置嵌入。
- relative_key，用于 Shaw 在 Self-Attention with Relative Position Representations (Shaw et al.) 中定义的相对位置嵌入。如果留空为 None，则不应用相对位置嵌入。
rotary_embedding_base (int, 可选, 默认为 10000) — 如果使用 "rotary" 位置嵌入，则定义嵌入基础的大小。
max_source_positions (int, 可选, 默认为 5000) — 如果使用 "relative" 位置嵌入，则定义最大源输入位置。
left_max_position_embeddings (int, 可选, 默认为 64) — 如果使用 "relative_key" (又名 Shaw) 位置嵌入，则定义相对位置的左裁剪值。
right_max_position_embeddings (int, 可选, 默认为 8) — 如果使用 "relative_key" (又名 Shaw) 位置嵌入，则定义相对位置的右裁剪值。
conv_depthwise_kernel_size (int, 可选, 默认为 31) — Conformer 块中卷积深度可分离一维层的核大小。
conformer_conv_dropout (float, 可选, 默认为 0.1) — Conformer 块中所有卷积层的 dropout 概率。

这是用于存储 Wav2Vec2BertModel 配置的配置类。它用于根据指定参数实例化 Wav2Vec2Bert 模型，定义模型架构。使用默认值实例化配置将生成与 Wav2Vec2Bert facebook/wav2vec2-bert-rel-pos-large 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import Wav2Vec2BertConfig, Wav2Vec2BertModel

>>> # Initializing a Wav2Vec2Bert facebook/wav2vec2-bert-rel-pos-large style configuration
>>> configuration = Wav2Vec2BertConfig()

>>> # Initializing a model (with random weights) from the facebook/wav2vec2-bert-rel-pos-large style configuration
>>> model = Wav2Vec2BertModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

Wav2Vec2-BERT

概述

使用提示

资源

Wav2Vec2BertConfig

class transformers.Wav2Vec2BertConfig

Wav2Vec2BertProcessor

class transformers.Wav2Vec2BertProcessor

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

Wav2Vec2BertModel

class transformers.Wav2Vec2BertModel

forward

Wav2Vec2BertForCTC

class transformers.Wav2Vec2BertForCTC

forward

Wav2Vec2BertForSequenceClassification

class transformers.Wav2Vec2BertForSequenceClassification

forward

Wav2Vec2BertForAudioFrameClassification

class transformers.Wav2Vec2BertForAudioFrameClassification

forward

Wav2Vec2BertForXVector

class transformers.Wav2Vec2BertForXVector

forward

call