SpeechT5

概述

SpeechT5 模型由 Junyi Ao, Rui Wang, Long Zhou, Chengyi Wang, Shuo Ren, Yu Wu, Shujie Liu, Tom Ko, Qing Li, Yu Zhang, Zhihua Wei, Yao Qian, Jinyu Li, Furu Wei 在 SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 中提出。

论文摘要如下

受到 T5（文本到文本转换 Transformer）在预训练自然语言处理模型中取得成功的激励，我们提出了一个统一模态的 SpeechT5 框架，该框架探索了用于自监督语音/文本表示学习的编码器-解码器预训练。SpeechT5 框架由一个共享的编码器-解码器网络和六个模态特定的（语音/文本）预/后网络组成。在通过预网络预处理输入语音/文本后，共享的编码器-解码器网络对序列到序列的转换进行建模，然后后网络基于解码器的输出在语音/文本模态中生成输出。利用大规模未标记的语音和文本数据，我们对 SpeechT5 进行预训练以学习统一模态的表示，希望提高语音和文本的建模能力。为了将文本和语音信息对齐到这个统一的语义空间中，我们提出了一种跨模态向量量化方法，该方法随机混合语音/文本状态与潜在单元，作为编码器和解码器之间的接口。广泛的评估表明，所提出的 SpeechT5 框架在各种口语语言处理任务中都具有优越性，包括自动语音识别、语音合成、语音翻译、声音转换、语音增强和说话人识别。

此模型由 Matthijs 贡献。原始代码可以在这里找到。

SpeechT5Config

class transformers.SpeechT5Config

< 源代码 >

( vocab_size = 81 hidden_size = 768 encoder_layers = 12 encoder_attention_heads = 12 encoder_ffn_dim = 3072 encoder_layerdrop = 0.1 decoder_layers = 6 decoder_ffn_dim = 3072 decoder_attention_heads = 12 decoder_layerdrop = 0.1 hidden_act = 'gelu' positional_dropout = 0.1 hidden_dropout = 0.1 attention_dropout = 0.1 activation_dropout = 0.1 initializer_range = 0.02 layer_norm_eps = 1e-05 scale_embedding = False feat_extract_norm = 'group' feat_proj_dropout = 0.0 feat_extract_activation = 'gelu' conv_dim = (512, 512, 512, 512, 512, 512, 512) conv_stride = (5, 2, 2, 2, 2, 2, 2) conv_kernel = (10, 3, 3, 3, 3, 2, 2) conv_bias = False num_conv_pos_embeddings = 128 num_conv_pos_embedding_groups = 16 apply_spec_augment = True mask_time_prob = 0.05 mask_time_length = 10 mask_time_min_masks = 2 mask_feature_prob = 0.0 mask_feature_length = 10 mask_feature_min_masks = 0 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 decoder_start_token_id = 2 num_mel_bins = 80 speech_decoder_prenet_layers = 2 speech_decoder_prenet_units = 256 speech_decoder_prenet_dropout = 0.5 speaker_embedding_dim = 512 speech_decoder_postnet_layers = 5 speech_decoder_postnet_units = 256 speech_decoder_postnet_kernel = 5 speech_decoder_postnet_dropout = 0.5 reduction_factor = 2 max_speech_positions = 4000 max_text_positions = 450 encoder_max_relative_position = 160 use_guided_attention_loss = True guided_attention_loss_num_heads = 2 guided_attention_loss_sigma = 0.4 guided_attention_loss_scale = 10.0 use_cache = True is_encoder_decoder = True **kwargs )

参数

vocab_size (int, 可选, 默认为 81) — SpeechT5 模型的词汇表大小。定义了可以由传递给 SpeechT5Model 的 forward 方法的 inputs_ids 表示的不同 token 的数量。
hidden_size (int, 可选, 默认为 768) — 编码器层和池化层的维度。
encoder_layers (int, 可选, 默认为 12) — Transformer 编码器中隐藏层的数量。
encoder_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。
encoder_ffn_dim (int, 可选, 默认为 3072) — Transformer 编码器中“中间”（即，前馈）层的维度。
encoder_layerdrop (float, 可选, 默认为 0.1) — 编码器的 LayerDrop 概率。有关更多详细信息，请参见 [LayerDrop 论文](see https://arxiv.org/abs/1909.11556)。
decoder_layers (int, 可选, 默认为 6) — Transformer 解码器中隐藏层的数量。
decoder_attention_heads (int, 可选, 默认为 12) — Transformer 解码器中每个注意力层的注意力头数。
decoder_ffn_dim (int, 可选, 默认为 3072) — Transformer 解码器中“中间”（通常称为前馈）层的维度。
decoder_layerdrop (float, 可选, 默认为 0.1) — 解码器的 LayerDrop 概率。有关更多详细信息，请参见 [LayerDrop 论文](see https://arxiv.org/abs/1909.11556)。
hidden_act (str 或 function, 可选的, 默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "gelu"、"relu"、"selu" 和 "gelu_new"。
positional_dropout (float, 可选的, 默认为 0.1) — 文本位置编码层的 dropout 概率。
hidden_dropout (float, 可选的, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。
attention_dropout (float, 可选的, 默认为 0.1) — 注意力概率的 dropout 比率。
activation_dropout (float, 可选的, 默认为 0.1) — 全连接层内部激活的 dropout 比率。
initializer_range (float, 可选的, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选的, 默认为 1e-5) — 层归一化层使用的 epsilon 值。
scale_embedding (bool, 可选的, 默认为 False) — 通过除以 sqrt(d_model) 来缩放嵌入。
feat_extract_norm (str, 可选的, 默认为 "group") — 应用于语音编码器预网络中 1D 卷积层的归一化方法。可以是 "group"（仅对第一个 1D 卷积层进行组归一化）或 "layer"（对所有 1D 卷积层进行层归一化）。
feat_proj_dropout (float, 可选的, 默认为 0.0) — 语音编码器预网络输出的 dropout 概率。
feat_extract_activation (str, 可选的, 默认为 "gelu") — 特征提取器 1D 卷积层中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "gelu"、"relu"、"selu" 和 "gelu_new"。
conv_dim (Tuple[int] 或 List[int], 可选的, 默认为 (512, 512, 512, 512, 512, 512, 512)) — 定义语音编码器预网络中每个 1D 卷积层的输入和输出通道数的整数元组。conv_dim 的长度定义了 1D 卷积层的数量。
conv_stride (Tuple[int] 或 List[int], 可选的, 默认为 (5, 2, 2, 2, 2, 2, 2)) — 定义语音编码器预网络中每个 1D 卷积层步长的整数元组。conv_stride 的长度定义了卷积层的数量，并且必须与 conv_dim 的长度匹配。
conv_kernel (Tuple[int] 或 List[int], 可选的, 默认为 (10, 3, 3, 3, 3, 3, 3)) — 定义语音编码器预网络中每个 1D 卷积层内核大小的整数元组。conv_kernel 的长度定义了卷积层的数量，并且必须与 conv_dim 的长度匹配。
conv_bias (bool, 可选的, 默认为 False) — 1D 卷积层是否具有偏置。
num_conv_pos_embeddings (int, 可选的, 默认为 128) — 卷积位置嵌入的数量。定义 1D 卷积位置嵌入层的内核大小。
num_conv_pos_embedding_groups (int, 可选的, 默认为 16) — 1D 卷积位置嵌入层的组数。
apply_spec_augment (bool, 可选的, 默认为 True) — 是否将 SpecAugment 数据增强应用于语音编码器预网络的输出。有关参考，请参阅 SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition。
mask_time_prob (float, 可选的, 默认为 0.05) — 沿时间轴将被屏蔽的所有特征向量的百分比（介于 0 和 1 之间）。屏蔽过程沿轴生成 “mask_time_problen(time_axis)/mask_time_length” 个独立掩码。如果从每个特征向量被选为要屏蔽的向量跨度的起点的概率来推断，则 mask_time_prob 应为 `prob_vector_startmask_time_length`。请注意，重叠可能会减少实际屏蔽向量的百分比。这仅在 apply_spec_augment 为 True 时相关。
mask_time_length (int, 可选的, 默认为 10) — 沿时间轴的向量跨度长度。
mask_time_min_masks (int, 可选的, 默认为 2) — 沿时间轴生成的长度为 mask_feature_length 的掩码的最小数量，每个时间步，与 mask_feature_prob 无关。仅在 “mask_time_prob*len(time_axis)/mask_time_length < mask_time_min_masks” 时相关
mask_feature_prob (float, 可选的, 默认为 0.0) — 沿特征轴将被屏蔽的所有特征向量的百分比（介于 0 和 1 之间）。屏蔽过程沿轴生成 “mask_feature_problen(feature_axis)/mask_time_length” 个独立掩码。如果从每个特征向量被选为要屏蔽的向量跨度的起点的概率来推断，则 mask_feature_prob 应为 `prob_vector_startmask_feature_length`。请注意，重叠可能会减少实际屏蔽向量的百分比。这仅在 apply_spec_augment 为 True 时相关。
mask_feature_length (int, 可选的, 默认为 10) — 沿特征轴的向量跨度长度。
mask_feature_min_masks (int, 可选的, 默认为 0) — 沿特征轴生成的长度为 mask_feature_length 的掩码的最小数量，每个时间步，与 mask_feature_prob 无关。仅在 “mask_feature_prob*len(feature_axis)/mask_feature_length < mask_feature_min_masks” 时相关
num_mel_bins (int, 可选的, 默认为 80) — 每个输入特征使用的 mel 特征的数量。由语音解码器预网络使用。应与 SpeechT5Processor 类中使用的值相对应。
speech_decoder_prenet_layers (int, 可选, 默认为 2) — 语音解码器预网络中的层数。
speech_decoder_prenet_units (int, 可选, 默认为 256) — 语音解码器预网络中各层的维度。
speech_decoder_prenet_dropout (float, 可选, 默认为 0.5) — 语音解码器预网络层的 dropout 概率。
speaker_embedding_dim (int, 可选, 默认为 512) — XVector 嵌入向量的维度。
speech_decoder_postnet_layers (int, 可选, 默认为 5) — 语音解码器后网络中的层数。
speech_decoder_postnet_units (int, 可选, 默认为 256) — 语音解码器后网络中各层的维度。
speech_decoder_postnet_kernel (int, 可选, 默认为 5) — 语音解码器后网络中卷积滤波器通道的数量。
speech_decoder_postnet_dropout (float, 可选, 默认为 0.5) — 语音解码器后网络层的 dropout 概率。
reduction_factor (int, 可选, 默认为 2) — 语音解码器输入的频谱图长度缩减因子。
max_speech_positions (int, 可选, 默认为 4000) — 此模型可能使用的语音特征的最大序列长度。
max_text_positions (int, 可选, 默认为 450) — 此模型可能使用的文本特征的最大序列长度。
encoder_max_relative_position (int, 可选, 默认为 160) — 编码器中相对位置嵌入的最大距离。
use_guided_attention_loss (bool, 可选, 默认为 True) — 是否在训练 TTS 模型时应用引导注意力损失。
guided_attention_loss_num_heads (int, 可选, 默认为 2) — 将引导注意力损失应用于的注意力头的数量。使用 -1 将此损失应用于所有注意力头。
guided_attention_loss_sigma (float, 可选, 默认为 0.4) — 引导注意力损失的标准差。
guided_attention_loss_scale (float, 可选, 默认为 10.0) — 引导注意力损失的缩放系数（也称为 lambda）。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。

这是用于存储 SpeechT5Model 配置的配置类。它用于根据指定的参数实例化 SpeechT5 模型，定义模型架构。使用默认值实例化配置将产生与 SpeechT5 microsoft/speecht5_asr 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import SpeechT5Model, SpeechT5Config

>>> # Initializing a "microsoft/speecht5_asr" style configuration
>>> configuration = SpeechT5Config()

>>> # Initializing a model (with random weights) from the "microsoft/speecht5_asr" style configuration
>>> model = SpeechT5Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

SpeechT5

概述

SpeechT5Config

class transformers.SpeechT5Config

SpeechT5HifiGanConfig

class transformers.SpeechT5HifiGanConfig

SpeechT5Tokenizer

class transformers.SpeechT5Tokenizer

__call__

save_vocabulary

decode

batch_decode

SpeechT5FeatureExtractor

class transformers.SpeechT5FeatureExtractor

__call__

SpeechT5Processor

class transformers.SpeechT5Processor

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

SpeechT5Model

class transformers.SpeechT5Model

forward

SpeechT5ForSpeechToText

class transformers.SpeechT5ForSpeechToText

forward

SpeechT5ForTextToSpeech

class transformers.SpeechT5ForTextToSpeech

forward

generate

SpeechT5ForSpeechToSpeech

class transformers.SpeechT5ForSpeechToSpeech

forward

generate_speech

SpeechT5HifiGan

class transformers.SpeechT5HifiGan

forward

call

call

call