Transformers 文档

语音编码器解码器模型

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

语音编码器-解码器模型

可以使用 SpeechEncoderDecoderModel 使用任何预训练的语音自动编码模型作为编码器(例如 Wav2Vec2Hubert)和任何预训练的自回归模型作为解码器来初始化语音到文本模型。

使用预训练的语音识别和语音翻译检查点初始化语音序列到文本序列模型的有效性已被证明,例如 Changhan Wang、Anne Wu、Juan Pino、Alexei Baevski、Michael Auli、Alexis Conneau 在《用于语音翻译的大规模自监督和半监督学习》 中所述。

关于如何使用 SpeechEncoderDecoderModel 进行推理的示例,请参见 Speech2Text2

从模型配置中随机初始化 SpeechEncoderDecoderModel。

SpeechEncoderDecoderModel 可以从编码器和解码器配置中随机初始化。在以下示例中,我们展示了如何使用 Wav2Vec2Model 的默认配置作为编码器和 BertForCausalLM 的默认配置作为解码器来实现。

>>> from transformers import BertConfig, Wav2Vec2Config, SpeechEncoderDecoderConfig, SpeechEncoderDecoderModel

>>> config_encoder = Wav2Vec2Config()
>>> config_decoder = BertConfig()

>>> config = SpeechEncoderDecoderConfig.from_encoder_decoder_configs(config_encoder, config_decoder)
>>> model = SpeechEncoderDecoderModel(config=config)

从预训练的编码器和预训练的解码器初始化 SpeechEncoderDecoderModel。

SpeechEncoderDecoderModel 可以从预训练的编码器检查点和预训练的解码器检查点初始化。注意,任何预训练的基于 Transformer 的语音模型,例如 Wav2Vec2Hubert,都可以用作编码器,预训练的自动编码模型(例如 BERT),预训练的因果语言模型(例如 GPT2),以及预训练的序列到序列模型的解码器部分(例如 BART 的解码器)都可以用作解码器。根据您选择作为解码器的架构,交叉注意层可能会被随机初始化。从预训练的编码器和解码器检查点初始化 SpeechEncoderDecoderModel 需要在后续任务上微调模型,正如在 《预热启动编码器-解码器博文》 中所示。为此,SpeechEncoderDecoderModel 类提供了一个 SpeechEncoderDecoderModel.from_encoder_decoder_pretrained() 方法。

>>> from transformers import SpeechEncoderDecoderModel

>>> model = SpeechEncoderDecoderModel.from_encoder_decoder_pretrained(
...     "facebook/hubert-large-ll60k", "google-bert/bert-base-uncased"
... )

加载现有的 SpeechEncoderDecoderModel 检查点并执行推理。

要加载 SpeechEncoderDecoderModel 类的微调检查点,SpeechEncoderDecoderModel 提供了 from_pretrained(...) 方法,就像 Transformers 中的任何其他模型架构一样。

要执行推理,可以使用 generate 方法,该方法允许自动回归生成文本。此方法支持多种解码形式,例如贪婪解码、集束搜索和多项式采样。

>>> from transformers import Wav2Vec2Processor, SpeechEncoderDecoderModel
>>> from datasets import load_dataset
>>> import torch

>>> # load a fine-tuned speech translation model and corresponding processor
>>> model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
>>> processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")

>>> # let's perform inference on a piece of English speech (which we'll translate to German)
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values

>>> # autoregressively generate transcription (uses greedy decoding by default)
>>> generated_ids = model.generate(input_values)
>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> print(generated_text)
Mr. Quilter ist der Apostel der Mittelschicht und wir freuen uns, sein Evangelium willkommen heißen zu können.

训练

创建模型后,可以像 BART、T5 或任何其他编码器-解码器模型一样,在 (语音,文本) 对的数据集上微调它。如您所见,模型只需要 2 个输入来计算损失:input_values(即语音输入)和 labels(即编码的目标序列的 input_ids)。

>>> from transformers import AutoTokenizer, AutoFeatureExtractor, SpeechEncoderDecoderModel
>>> from datasets import load_dataset

>>> encoder_id = "facebook/wav2vec2-base-960h"  # acoustic model encoder
>>> decoder_id = "google-bert/bert-base-uncased"  # text decoder

>>> feature_extractor = AutoFeatureExtractor.from_pretrained(encoder_id)
>>> tokenizer = AutoTokenizer.from_pretrained(decoder_id)
>>> # Combine pre-trained encoder and pre-trained decoder to form a Seq2Seq model
>>> model = SpeechEncoderDecoderModel.from_encoder_decoder_pretrained(encoder_id, decoder_id)

>>> model.config.decoder_start_token_id = tokenizer.cls_token_id
>>> model.config.pad_token_id = tokenizer.pad_token_id

>>> # load an audio input and pre-process (normalise mean/std to 0/1)
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> input_values = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt").input_values

>>> # load its corresponding transcription and tokenize to generate labels
>>> labels = tokenizer(ds[0]["text"], return_tensors="pt").input_ids

>>> # the forward function automatically creates the correct decoder_input_ids
>>> loss = model(input_values=input_values, labels=labels).loss
>>> loss.backward()

SpeechEncoderDecoderConfig

class transformers.SpeechEncoderDecoderConfig

< >

( **kwargs )

参数

  • kwargs (可选) — 关键字参数的字典。值得注意的是:

    • encoder (PretrainedConfig可选) — 定义编码器配置的配置对象实例。
    • decoder (PretrainedConfig可选) — 定义解码器配置的配置对象实例。

SpeechEncoderDecoderConfig 是用于存储 SpeechEncoderDecoderModel 配置的配置类。它用于根据指定的参数实例化编码器-解码器模型,定义编码器和解码器配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import BertConfig, Wav2Vec2Config, SpeechEncoderDecoderConfig, SpeechEncoderDecoderModel

>>> # Initializing a Wav2Vec2 & BERT style configuration
>>> config_encoder = Wav2Vec2Config()
>>> config_decoder = BertConfig()

>>> config = SpeechEncoderDecoderConfig.from_encoder_decoder_configs(config_encoder, config_decoder)

>>> # Initializing a Wav2Vec2Bert model from a Wav2Vec2 & google-bert/bert-base-uncased style configurations
>>> model = SpeechEncoderDecoderModel(config=config)

>>> # Accessing the model configuration
>>> config_encoder = model.config.encoder
>>> config_decoder = model.config.decoder
>>> # set decoder config to causal lm
>>> config_decoder.is_decoder = True
>>> config_decoder.add_cross_attention = True

>>> # Saving the model, including its configuration
>>> model.save_pretrained("my-model")

>>> # loading model and config from pretrained folder
>>> encoder_decoder_config = SpeechEncoderDecoderConfig.from_pretrained("my-model")
>>> model = SpeechEncoderDecoderModel.from_pretrained("my-model", config=encoder_decoder_config)

from_encoder_decoder_configs

< >

( encoder_config: PretrainedConfig decoder_config: PretrainedConfig **kwargs ) SpeechEncoderDecoderConfig

返回

SpeechEncoderDecoderConfig

配置对象的实例

从预训练的编码器模型配置和解码器模型配置实例化一个 SpeechEncoderDecoderConfig (或派生类)。

SpeechEncoderDecoderModel

class transformers.SpeechEncoderDecoderModel

< >

( config: Optional = None encoder: Optional = None decoder: Optional = None )

参数

  • config (SpeechEncoderDecoderConfig) — 模型配置类,包含模型的所有参数。使用配置文件进行初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。

此类可用于使用任何预训练的语音自动编码模型作为编码器和任何预训练的文本自回归模型作为解码器来初始化语音-序列-到-文本-序列模型。编码器通过 from_pretrained() 函数加载,解码器通过 from_pretrained() 函数加载。交叉注意力层会自动添加到解码器中,应在像摘要这样的下游生成任务上进行微调。

在 Sascha Rothe、Shashi Narayan、Aliaksei Severyn、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 发表的论文 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks 中,展示了使用预训练检查点初始化序列到序列模型以进行序列生成任务的有效性。

此外,在 Large-Scale Self- and Semi-Supervised Learning for Speech Translation 中,展示了如何利用大型预训练语音模型进行语音翻译,从而显著提高性能。

在训练/微调这样的语音编码器-解码器模型后,可以像其他任何模型一样对其进行保存/加载(有关更多信息,请参阅示例)。

此模型继承自 PreTrainedModel。检查超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档了解与一般使用和行为相关的所有事宜。

SpeechEncoderDecoderModel 是一个通用模型类,在使用 :meth~transformers.AutoModel.from_pretrained 类方法创建编码器和使用 :meth~transformers.AutoModelForCausalLM.from_pretrained 类方法创建解码器时,它将被实例化为一个具有库中某个基本模型类作为编码器和另一个基本模型类作为解码器的 Transformer 架构。

forward

< >

( inputs: Optional = None attention_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None encoder_outputs: Optional = None past_key_values: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None input_values: Optional = None input_features: Optional = None return_dict: Optional = None **kwargs ) transformers.modeling_outputs.Seq2SeqLMOutput or tuple(torch.FloatTensor)

参数

  • inputs (torch.FloatTensor 形状为 (batch_size, sequence_length)(batch_size, sequence_length, feature_dim)可选) — 输入原始语音波形或语音特征的浮点值。值可以通过将 .flac.wav 音频文件加载到 List[float]numpy.ndarray 类型的数组中来获得,例如,通过 soundfile 库 (pip install soundfile)。若要将数组准备成 inputs,则应使用 Wav2Vec2ProcessorSpeech2TextProcessor 进行填充并转换为 torch.FloatTensor 类型的张量。
  • attention_mask (torch.FloatTensor 形状为 (batch_size, sequence_length)可选) — 用于避免对填充令牌索引执行注意力的掩码。掩码值选择在 [0, 1] 中:

    • 1 表示未屏蔽的令牌,
    • 0 表示屏蔽的令牌。

    什么是注意力掩码?

  • decoder_input_ids (torch.LongTensor 形状为 (batch_size, target_sequence_length)可选) — 解码器输入序列令牌在词汇表中的索引。

    索引可以使用 PreTrainedTokenizer 获取。有关详细信息,请参见 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

    如果使用 past_key_values,可以选择仅输入最后一个 decoder_input_ids(参见 past_key_values)。

    对于训练,decoder_input_ids 会由模型自动创建,方法是将 labels 向右移动,将 -100 替换为 pad_token_id,并在它们前面加上 decoder_start_token_id

  • decoder_attention_mask (torch.BoolTensor 形状为 (batch_size, target_sequence_length)可选) — 默认行为:生成一个张量,该张量忽略 decoder_input_ids 中的填充令牌。因果掩码也将默认使用。
  • encoder_outputs (tuple(torch.FloatTensor)可选) — 此元组必须由 (last_hidden_state可选hidden_states可选attentions) 组成 last_hidden_state (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)) 是编码器最后一层输出处的隐藏状态张量。在解码器的交叉注意力中使用。
  • past_key_values (tuple(tuple(torch.FloatTensor)) 长度为 config.n_layers,每个元组有 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的张量) — 包含预先计算的注意力块的键和值隐藏状态。可用于加速解码。

    如果使用 past_key_values,用户可以选择仅输入最后一个 decoder_input_ids(形状为 (batch_size, 1),而不是所有 decoder_input_ids(形状为 (batch_size, sequence_length)),这些 decoder_input_ids 没有将其过去的键值状态提供给此模型。

  • inputs_embeds (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,您可以选择直接传递嵌入式表示,而不是传递 input_ids。如果您想对如何将 input_ids 索引转换为关联向量(而不是模型的内部嵌入查找矩阵)进行更多控制,这很有用。
  • decoder_inputs_embeds (torch.FloatTensor 形状为 (batch_size, target_sequence_length, hidden_size)可选) — 可选地,您可以选择直接传递嵌入式表示,而不是传递 decoder_input_ids。如果您想对如何将 decoder_input_ids 索引转换为关联向量(而不是模型的内部嵌入查找矩阵)进行更多控制,这很有用。
  • labels (torch.LongTensor 形状为 (batch_size, sequence_length)可选) — 用于计算解码器掩码语言模型损失的标签。索引应在 [-100, 0, ..., config.vocab_size] 中(参见 input_ids 文档字符串)。索引设置为 -100 的令牌将被忽略(屏蔽),损失仅针对标签在 [0, ..., config.vocab_size] 中的令牌计算。
  • use_cache (bool可选) — 如果设置为 True,则返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的 hidden_states
  • input_values (torch.FloatTensor 形状为 (batch_size, sequence_length), 可选) — 输入原始语音波形的浮点值。可以通过将 .flac.wav 音频文件加载到 List[float]numpy.ndarray 类型的数组中来获取值,例如,通过 soundfile 库 (pip install soundfile)。要将数组准备为 input_values,应使用 Wav2Vec2Processor 进行填充并转换为 torch.FloatTensor 类型的张量。有关详细信息,请参阅 Wav2Vec2Processor.call()
  • input_features (torch.FloatTensor 形状为 (batch_size, sequence_length, feature_size), 可选) — 从原始语音波形中提取的 fbank 特征的浮点值。可以通过将 .flac.wav 音频文件加载到 List[float]numpy.ndarray 类型的数组中来获取原始语音波形,例如,通过 soundfile 库 (pip install soundfile)。要将数组准备为 input_features,应使用 Speech2TextFeatureExtractor 提取 fbank 特征、填充并转换为 torch.FloatTensor 类型的张量。有关详细信息,请参阅 call()
  • return_dict (bool, 可选) — 如果设置为 True,模型将返回 ~utils.Seq2SeqLMOutput,而不是普通元组。
  • kwargs (可选) — 剩余的关键字参数字典。关键字参数有两种形式:

    • 没有前缀,将作为 **encoder_kwargs 输入编码器正向函数。
    • 带有 decoder_ 前缀,将作为 **decoder_kwargs 输入解码器正向函数。

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutputtorch.FloatTensor 的元组 (如果传递了 return_dict=False 或当 config.return_dict=False 时),包含根据配置 (SpeechEncoderDecoderConfig) 和输入而变化的各种元素。

  • loss (torch.FloatTensor 形状为 (1,), 可选,当提供 labels 时返回) — 语言建模损失。

  • logits (torch.FloatTensor 形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测得分 (SoftMax 之前每个词汇标记的得分)。

  • past_key_values (tuple(tuple(torch.FloatTensor)), 可选,当传递 use_cache=True 或当 config.use_cache=True 时返回) — tuple(torch.FloatTensor) 的元组,长度为 config.n_layers,每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量) 和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态 (自注意力块和交叉注意力块中的键和值),可用于 (参见 past_key_values 输入) 加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor), 可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组 (一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出) 形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出处的隐藏状态加上初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor), 可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组 (每一层一个) 形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 SoftMax 之后,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(torch.FloatTensor), 可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组 (每一层一个) 形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 SoftMax 之后,用于计算交叉注意力头中的加权平均值。

  • encoder_last_hidden_state (torch.FloatTensor 形状为 (batch_size, sequence_length, hidden_size), 可选) — 模型编码器最后一层输出处的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor), 可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组 (一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出) 形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出处的隐藏状态加上初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor), 可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组 (每一层一个) 形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 SoftMax 之后,用于计算自注意力头中的加权平均值。

SpeechEncoderDecoderModel 正向方法覆盖了 __call__ 特殊方法。

虽然正向传递的配方需要在此函数内定义,但之后应该调用 Module 实例,而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import SpeechEncoderDecoderModel, AutoProcessor
>>> from datasets import load_dataset
>>> import torch

>>> processor = AutoProcessor.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")
>>> model = SpeechEncoderDecoderModel.from_pretrained("facebook/wav2vec2-xls-r-300m-en-to-15")

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

>>> input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
>>> # Inference: Translate English speech to German
>>> generated = model.generate(input_values)
>>> decoded = processor.batch_decode(generated, skip_special_tokens=True)[0]
>>> decoded
'Mr. Quilter ist der Apostel der Mittelschicht und wir freuen uns, sein Evangelium willkommen heißen zu können.'

>>> # Training: Train model on English transcription
>>> labels = processor(text=ds[0]["text"], return_tensors="pt").input_ids

>>> loss = model(input_values, labels=labels).loss
>>> loss.backward()

from_encoder_decoder_pretrained

< >

( encoder_pretrained_model_name_or_path: str = None decoder_pretrained_model_name_or_path: str = None *model_args **kwargs )

参数

  • encoder_pretrained_model_name_or_path (str, 可选) — 初始化编码器的必要信息。 可以是以下任一:

    • 一个字符串,即托管在 huggingface.co 上的模型仓库中的预训练模型的模型 ID
    • 一个指向包含使用 save_pretrained() 保存的模型权重的目录的路径,例如 ./my_model_directory/
    • 一个指向 TensorFlow 索引检查点文件的路径或 URL(例如 ./tf_model/model.ckpt.index)。在这种情况下,from_tf 应设置为 True,并且应提供一个配置对象作为 config 参数。 此加载路径比使用提供的转换脚本将 TensorFlow 检查点转换为 PyTorch 模型并之后加载 PyTorch 模型要慢。
  • decoder_pretrained_model_name_or_path (str, 可选,默认为 None) — 初始化解码器的必要信息。 可以是以下任一:

    • 一个字符串,即托管在 huggingface.co 上的模型仓库中的预训练模型的模型 ID
    • 一个指向包含使用 save_pretrained() 保存的模型权重的目录的路径,例如 ./my_model_directory/
    • 一个指向 TensorFlow 索引检查点文件的路径或 URL(例如 ./tf_model/model.ckpt.index)。在这种情况下,from_tf 应设置为 True,并且应提供一个配置对象作为 config 参数。 此加载路径比使用提供的转换脚本将 TensorFlow 检查点转换为 PyTorch 模型并之后加载 PyTorch 模型要慢。
  • model_args (剩余的位置参数,可选) — 所有剩余的位置参数将传递给底层模型的 __init__ 方法。
  • kwargs (剩余的关键字参数字典,可选) — 可用于更新配置对象(在加载后)并初始化模型(例如 output_attentions=True)。

    • 要更新编码器配置,请在每个配置参数前使用前缀encoder_
    • 要更新解码器配置,请在每个配置参数前使用前缀decoder_
    • 要更新父模型配置,请勿在每个配置参数前使用前缀。

    行为取决于是否提供 config 或自动加载。

从库中的一个或两个基类创建编码器和解码器,这些基类来自预训练的模型检查点。

默认情况下,模型使用 model.eval() 设置为评估模式(Dropout 模块被停用)。 要训练模型,您需要首先使用 model.train() 将其恢复到训练模式。

示例

>>> from transformers import SpeechEncoderDecoderModel

>>> # initialize a wav2vec2bert from a pretrained Wav2Vec2 and a pretrained BERT model. Note that the cross-attention layers will be randomly initialized
>>> model = SpeechEncoderDecoderModel.from_encoder_decoder_pretrained(
...     "facebook/wav2vec2-base-960h", "google-bert/bert-base-uncased"
... )
>>> # saving model after fine-tuning
>>> model.save_pretrained("./wav2vec2bert")
>>> # load fine-tuned model
>>> model = SpeechEncoderDecoderModel.from_pretrained("./wav2vec2bert")

FlaxSpeechEncoderDecoderModel

class transformers.FlaxSpeechEncoderDecoderModel

< >

( config: SpeechEncoderDecoderConfig input_shape: Optional = None seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

  • config (SpeechEncoderDecoderConfig) — 模型配置类,包含模型的所有参数。 使用配置文件进行初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法来加载模型权重。
  • dtype (jax.numpy.dtype, 可选, 默认为 jax.numpy.float32) — 计算的数据类型。可以是 jax.numpy.float32jax.numpy.float16(在 GPU 上)和 jax.numpy.bfloat16(在 TPU 上)之一。

    这可以用于启用混合精度训练或 GPU 或 TPU 上的半精度推断。如果指定,所有计算都将使用给定的 dtype 执行。

    注意,这仅指定计算的 dtype,不影响模型参数的 dtype。

    如果你想更改模型参数的 dtype,请查看 to_fp16()to_bf16()

此类可用于使用任何预训练的语音自动编码模型作为编码器和任何预训练的文本自回归模型作为解码器来初始化语音-序列-到-文本-序列模型。编码器通过 from_pretrained() 函数加载,解码器通过 from_pretrained() 函数加载。交叉注意力层会自动添加到解码器中,应在像摘要这样的下游生成任务上进行微调。

在 Sascha Rothe、Shashi Narayan、Aliaksei Severyn、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 发表的论文 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks 中,展示了使用预训练检查点初始化序列到序列模型以进行序列生成任务的有效性。

此外,在 Large-Scale Self- and Semi-Supervised Learning for Speech Translation 中,展示了如何利用大型预训练语音模型进行语音翻译,从而显著提高性能。

在训练/微调这样的语音编码器-解码器模型后,可以像其他任何模型一样对其进行保存/加载(有关更多信息,请参阅示例)。

该模型继承自 FlaxPreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头等)。

该模型也是 Flax Linen flax.nn.Module 子类。将其用作常规 Flax 模块,并参考 Flax 文档了解与一般用法和行为相关的所有事项。

FlaxSpeechEncoderDecoderModel 是一个通用的模型类,它将在使用库的某个基本模型类的模块(flax.nn.Module)作为编码器模块,另一个作为解码器模块时实例化为一个 Transformer 架构,当使用 :meth~transformers.FlaxAutoModel.from_pretrained 类方法创建编码器时,使用 :meth~transformers.FlaxAutoModelForCausalLM.from_pretrained 类方法创建解码器。

__call__

< >

( inputs: Array attention_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None decoder_position_ids: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False freeze_feature_encoder: bool = False params: dict = None dropout_rng: PRNGKey = None ) transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • inputs (jnp.ndarray 形状为 (batch_size, sequence_length)(batch_size, sequence_length, feature_dim), 可选) — 输入原始语音波形或语音特征的浮点值。值可以通过将 .flac.wav 音频文件加载到 List[float] 类型的数组或 numpy.ndarray 中来获得,例如 通过 soundfile 库 (pip install soundfile)。要将数组准备为 inputs,应该使用 Wav2Vec2ProcessorSpeech2TextProcessor 进行填充和转换为 torch.FloatTensor 类型的张量。
  • attention_mask (jnp.ndarray 形状为 (batch_size, sequence_length), 可选) — 避免对填充标记索引执行注意的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示未掩码的标记,
    • 0 表示已掩码的标记。

    什么是注意掩码?

  • decoder_input_ids (jnp.ndarray 形状为 (batch_size, target_sequence_length), 可选) — 解码器输入序列标记在词汇表中的索引。

    索引可以使用 PreTrainedTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

    如果使用 past_key_values,可以选择仅输入最后的 decoder_input_ids(见 past_key_values)。

    对于序列到序列训练,应提供 decoder_input_idsdecoder_input_ids 应在模型外部创建,方法是将 labels 向右移动,用 pad_token_id 替换 -100,并在其前面加上 decoder_start_token_id

  • decoder_attention_mask (jnp.ndarray 形状为 (batch_size, target_sequence_length), 可选) — 默认行为:生成一个忽略 decoder_input_ids 中的填充标记的张量。因果掩码也将在默认情况下使用。
  • decoder_position_ids (numpy.ndarray 形状为 (batch_size, sequence_length), 可选) — 解码器输入序列标记在位置嵌入中的位置索引。在 [0, config.decoder.max_position_embeddings - 1] 范围内选择。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的 hidden_states
  • return_dict (bool, 可选) — 如果设置为 True,模型将返回 ~utils.FlaxSeq2SeqLMOutput 而不是普通元组。

返回

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtorch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含取决于配置(SpeechEncoderDecoderConfig)和输入的各种元素。

  • logits (jnp.ndarray 形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(softmax 之前的每个词汇表标记的分数)。

  • past_key_values (tuple(tuple(jnp.ndarray)), 可选, 当传递了 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layerstuple(jnp.ndarray) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量) 和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态 (自注意力块和交叉注意力块中的键和值),可用于 (参见 past_key_values 输入) 加速顺序解码。

  • decoder_hidden_states (tuple(jnp.ndarray), 可选, 当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 元组(一个用于嵌入的输出 + 一个用于每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出处的隐藏状态加上初始嵌入输出。

  • decoder_attentions (tuple(jnp.ndarray), 可选, 当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 SoftMax 之后,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(jnp.ndarray), 可选, 当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 SoftMax 之后,用于计算交叉注意力头中的加权平均值。

  • encoder_last_hidden_state (jnp.ndarray 形状为 (batch_size, sequence_length, hidden_size), 可选) — 模型编码器最后一层的输出的隐藏状态序列。

  • encoder_hidden_states (tuple(jnp.ndarray), 可选, 当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 元组(一个用于嵌入的输出 + 一个用于每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出处的隐藏状态加上初始嵌入输出。

  • encoder_attentions (tuple(jnp.ndarray), 可选, 当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 SoftMax 之后,用于计算自注意力头中的加权平均值。

The FlaxSpeechEncoderDecoderModel 前向方法,覆盖了 __call__ 特殊方法。

虽然正向传递的配方需要在此函数内定义,但之后应该调用 Module 实例,而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import FlaxSpeechEncoderDecoderModel, AutoTokenizer

>>> # load a fine-tuned wav2vec2-2-bart model
>>> model = FlaxSpeechEncoderDecoderModel.from_pretrained("patrickvonplaten/wav2vec2-2-bart-large")
>>> # load output tokenizer
>>> tokenizer_output = AutoTokenizer.from_pretrained("facebook/bart-large")

>>> inputs = jnp.ones((2, 5000), dtype=jnp.float32)

>>> # use bart's special bos, pad and eos tokens
>>> model.config.decoder_start_token_id = model.decoder.config.bos_token_id
>>> model.config.pad_token_id = model.decoder.config.pad_token_id
>>> model.config.eos_token_id = model.decoder.config.eos_token_id

>>> outputs = model.generate(inputs)
# Assert something? More interesting input? dtype correct?

from_encoder_decoder_pretrained

< >

( encoder_pretrained_model_name_or_path: Union = None decoder_pretrained_model_name_or_path: Union = None *model_args **kwargs )

参数

  • encoder_pretrained_model_name_or_path (Union[str, os.PathLike], 可选) — 初始化编码器所需的信息。可以是以下之一:

    • 字符串,huggingface.co 上模型库中托管的预训练模型的模型 ID
    • 指向使用 save_pretrained() 保存的模型权重的目录的路径,例如 ./my_model_directory/
  • decoder_pretrained_model_name_or_path (Union[str, os.PathLike], 可选, 默认值为 None) — 初始化解码器所需的信息。可以是以下之一:

    • 字符串,huggingface.co 上模型库中托管的预训练模型的模型 ID
    • 指向使用 save_pretrained() 保存的模型权重的目录的路径,例如 ./my_model_directory/
  • model_args (剩余位置参数, 可选) — 所有剩余的位置参数将传递给底层模型的 __init__ 方法。
  • kwargs (剩余关键字参数字典, 可选) — 可用于更新配置对象(在加载后)并初始化模型(例如 output_attentions=True)。

    • 要更新编码器配置,请对每个配置参数使用前缀 encoder_
    • 要更新解码器配置,请对每个配置参数使用前缀 decoder_
    • 要更新父模型配置,请不要对每个配置参数使用前缀。

    根据是否提供 config 或自动加载,行为会有所不同。

从库中的一个或两个基类创建编码器和解码器,这些基类来自预训练的模型检查点。

示例

>>> from transformers import FlaxSpeechEncoderDecoderModel

>>> # initialize a wav2vec2-2-bart from pretrained wav2vec2 and bart models. Note that the cross-attention layers will be randomly initialized
>>> model = FlaxSpeechEncoderDecoderModel.from_encoder_decoder_pretrained(
...     "facebook/wav2vec2-large-lv60", "facebook/bart-large"
... )
>>> # saving model after fine-tuning
>>> model.save_pretrained("./wav2vec2-2-bart-large")
>>> # load fine-tuned model
>>> model = FlaxSpeechEncoderDecoderModel.from_pretrained("./wav2vec2-2-bart-large")
< > 在 GitHub 上更新