Transformers 文档

月光

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Moonshine

PyTorch FlashAttention SDPA

概述

Moonshine 模型在 Moonshine: Speech Recognition for Live Transcription and Voice Commands 中被提出,作者是 Nat Jeffries, Evan King, Manjunath Kudlur, Guy Nicholson, James Wang, Pete Warden。

论文摘要如下:

本文介绍了 Moonshine,一个针对实时转录和语音命令处理优化的语音识别模型系列。Moonshine 基于编码器-解码器 Transformer 架构,并采用旋转位置嵌入 (RoPE) 而不是传统的绝对位置嵌入。该模型在各种长度的语音片段上进行训练,但不使用零填充,从而提高了编码器在推理时的效率。当与 OpenAI 的 Whisper tiny-en 进行基准测试时,Moonshine Tiny 在转录 10 秒的语音片段时,计算需求降低了 5 倍,同时在标准评估数据集上的词错误率没有增加。这些结果突出了 Moonshine 在实时和资源受限应用中的潜力。

提示

  • Moonshine 改进了 Whisper 的架构
    1. 它在解码器层中使用 SwiGLU 激活代替 GELU
    2. 最重要的是,它用旋转位置嵌入 (RoPE) 替换了绝对位置嵌入。这使得 Moonshine 能够处理任意长度的音频输入,这与 Whisper 限制为固定的 30 秒窗口不同。

此模型由 Eustache Le Bihan (eustlb) 贡献。原始代码可以在这里找到。

资源

MoonshineConfig

class transformers.MoonshineConfig

< >

( vocab_size = 32768 hidden_size = 288 intermediate_size = 1152 encoder_num_hidden_layers = 6 decoder_num_hidden_layers = 6 encoder_num_attention_heads = 8 decoder_num_attention_heads = 8 encoder_num_key_value_heads = None decoder_num_key_value_heads = None pad_head_dim_to_multiple_of = None encoder_hidden_act = 'gelu' decoder_hidden_act = 'silu' max_position_embeddings = 512 initializer_range = 0.02 decoder_start_token_id = 1 use_cache = True rope_theta = 10000.0 rope_scaling = None partial_rotary_factor = 0.9 is_encoder_decoder = True attention_bias = False attention_dropout = 0.0 bos_token_id = 1 eos_token_id = 2 **kwargs )

参数

  • vocab_size (int, 可选, 默认为 32768) — Moonshine 模型的词汇表大小。定义了在调用 MoonshineModel 时传递的 inputs_ids 可以表示的不同 token 的数量。
  • hidden_size (int, 可选, 默认为 288) — 隐藏层表示的维度。
  • intermediate_size (int, 可选, 默认为 1152) — MLP 表示的维度。
  • encoder_num_hidden_layers (int, 可选, 默认为 6) — Transformer 编码器中隐藏层的数量。
  • decoder_num_hidden_layers (int, 可选, 默认为 6) — Transformer 解码器中隐藏层的数量。
  • encoder_num_attention_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头的数量。
  • decoder_num_attention_heads (int, 可选, 默认为 8) — Transformer 解码器中每个注意力层的注意力头的数量。
  • encoder_num_key_value_heads (int, 可选) — 这是用于实现分组查询注意力的 key_value 头的数量。如果 encoder_num_key_value_heads=encoder_num_attention_heads,则模型将使用多头注意力 (MHA);如果 encoder_num_key_value_heads=1,则模型将使用多查询注意力 (MQA),否则将使用 GQA。当将多头检查点转换为 GQA 检查点时,每个组的 key 和 value 头应通过对该组内所有原始头进行平均池化来构建。有关更多详细信息,请查看本文。如果未指定,则默认为 num_attention_heads
  • decoder_num_key_value_heads (int, 可选) — 这是用于实现分组查询注意力的 key_value 头的数量。如果 decoder_num_key_value_heads=decoder_num_attention_heads,则模型将使用多头注意力 (MHA);如果 decoder_num_key_value_heads=1,则模型将使用多查询注意力 (MQA),否则将使用 GQA。当将多头检查点转换为 GQA 检查点时,每个组的 key 和 value 头应通过对该组内所有原始头进行平均池化来构建。有关更多详细信息,请查看本文。如果未指定,则默认为 decoder_num_attention_heads
  • pad_head_dim_to_multiple_of (int, 可选) — 将编码器和解码器中的 head 维度填充到此值的下一个倍数。对于使用某些优化的注意力实现是必要的。
  • encoder_hidden_act (strfunction, 可选, 默认为 "gelu") — 编码器中的非线性激活函数(函数或字符串)。
  • decoder_hidden_act (strfunction, 可选, 默认为 "silu") — 解码器中的非线性激活函数(函数或字符串)。
  • max_position_embeddings (int, 可选, 默认为 512) — 此模型可能使用的最大序列长度。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • decoder_start_token_id (int, 可选, 默认为 1) — 对应于 “<|startoftranscript|>” 标记,当没有为 generate 函数提供 decoder_input_ids 时,将自动使用该标记。它用于根据任务指导模型的生成过程。
  • use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。
  • rope_theta (float, 可选, 默认为 10000.0) — RoPE 嵌入的基period。
  • rope_scaling (Dict, 可选) — 包含 RoPE 嵌入缩放配置的字典。 注意:如果您应用新的 rope 类型并期望模型在更长的 max_position_embeddings 上工作,我们建议您相应地更新此值。 预期内容: rope_type (str):要使用的 RoPE 的子变体。 可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’] 之一,其中 ‘default’ 是原始 RoPE 实现。 factor (float, 可选):与除 ‘default’ 之外的所有 rope 类型一起使用。 应用于 RoPE 嵌入的缩放因子。 在大多数缩放类型中,x 的 factor 将使模型能够处理长度为 x * 原始最大预训练长度的序列。 original_max_position_embeddings (int, 可选):与 ‘dynamic’、‘longrope’ 和 ‘llama3’ 一起使用。 预训练期间使用的原始最大位置嵌入。 attention_factor (float, 可选):与 ‘yarn’ 和 ‘longrope’ 一起使用。 应用于注意力计算的缩放因子。 如果未指定,则默认为实现建议的值,使用 factor 字段来推断建议的值。 beta_fast (float, 可选):仅与 ‘yarn’ 一起使用。 用于设置线性斜坡函数中外推(仅)边界的参数。 如果未指定,则默认为 32。 beta_slow (float, 可选):仅与 ‘yarn’ 一起使用。 用于设置线性斜坡函数中插值(仅)边界的参数。 如果未指定,则默认为 1。 short_factor (List[float], 可选):仅与 ‘longrope’ 一起使用。 应用于短上下文(< original_max_position_embeddings)的缩放因子。 必须是数字列表,其长度与隐藏层大小除以注意力头的数量再除以 2 的长度相同 long_factor (List[float], 可选):仅与 ‘longrope’ 一起使用。 应用于长上下文(< original_max_position_embeddings)的缩放因子。 必须是数字列表,其长度与隐藏层大小除以注意力头的数量再除以 2 的长度相同 low_freq_factor (float, 可选):仅与 ‘llama3’ 一起使用。 应用于 RoPE 低频分量的缩放因子 high_freq_factor (float, 可选):仅与 ‘llama3’ 一起使用。 应用于 RoPE 高频分量的缩放因子
  • partial_rotary_factor (float, 可选, 默认为 0.9) — 查询和键中将具有旋转嵌入的百分比。
  • is_encoder_decoder (bool, 可选, 默认为 True) — 模型是否用作编码器/解码器。
  • attention_bias (bool, 可选, 默认为 False) — 是否在自注意力期间在查询、键、值和输出投影层中使用偏置。
  • attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
  • bos_token_id (int, 可选, 默认为 1) — 表示序列开始的 token id。
  • eos_token_id (int, 可选, 默认为 2) — 表示序列结束的 token id。

这是用于存储 MoonshineModel 配置的配置类。 它用于根据指定的参数实例化 Moonshine 模型,定义模型架构。 使用默认值实例化配置将产生与 Moonshine UsefulSensors/moonshine-tiny 类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。 有关更多信息,请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import MoonshineModel, MoonshineConfig

>>> # Initializing a Moonshine style configuration
>>> configuration = MoonshineConfig().from_pretrained("UsefulSensors/moonshine-tiny")

>>> # Initializing a model from the configuration
>>> model = MoonshineModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

MoonshineModel

class transformers.MoonshineModel

< >

( config: MoonshineConfig )

参数

  • config (MoonshineConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。

裸 Moonshine 模型输出原始隐藏状态,顶部没有任何特定的 head。 此模型继承自 PreTrainedModel。 查看超类文档,了解库为其所有模型实现的通用方法(例如,下载或保存、调整输入嵌入大小、剪枝 head 等)。

此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。

forward

< >

( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, typing.Tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[typing.Tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[typing.Tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.Seq2SeqModelOutputtuple(torch.FloatTensor)

参数

  • input_values (形状为 (batch_size, audio_length)torch.FloatTensor) — 原始语音波形的浮点值。 原始语音波形可以通过将 .flac.wav 音频文件加载到类型为 List[float]numpy.ndarray 的数组中获得,例如 通过 soundfile 库 (pip install soundfile)。 为了将数组准备为 input_values,应使用 AutoFeatureExtractor 进行填充和转换为 torch.FloatTensor 类型的张量。
  • attention_mask (形状为 (batch_size, sequence_length)torch.Tensor, 可选) — 用于避免在 input_values 中的填充索引上执行注意力的掩码。 在 [0, 1] 中选择的掩码值:

  • decoder_input_ids (形状为 (batch_size, sequence_length)torch.LongTensor) — 词汇表中输入序列 token 的索引。 如果您提供填充,默认情况下将忽略填充。

    索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • decoder_attention_mask (形状为 (batch_size, sequence_length)torch.Tensor, 可选) — 用于避免在填充 token 索引上执行注意力的掩码。 在 [0, 1] 中选择的掩码值:

    • 1 表示 未被掩码 的 token,
    • 0 表示 被掩码 的 token。

    什么是注意力掩码?

    索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    如果使用 past_key_values,则可以选择仅输入最后的 decoder_input_ids(请参阅 past_key_values)。

    如果您想更改填充行为,您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需求进行修改。 有关默认策略的更多信息,请参见 论文 中的图 1。

    • 1 表示 head 未被掩码
    • 0 表示 head 被掩码
  • encoder_outputs (tuple(tuple(torch.FloatTensor), 可选) — 元组由 (last_hidden_state, 可选: hidden_states, 可选: attentions) 组成 last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size), 可选) 是编码器最后一层输出的隐藏状态序列。 在解码器的交叉注意力中使用。
  • past_key_values (Cachetuple(tuple(torch.FloatTensor)), 可选) — 预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于加速顺序解码。 这通常包括模型在先前解码阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv 缓存指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量)。 这也称为旧版缓存格式。

    模型将输出与作为输入馈送的缓存格式相同的缓存格式。 如果未传递 past_key_values,则将返回旧版缓存格式。

    如果使用 past_key_values,则用户可以选择仅输入最后的 decoder_input_ids(那些没有将其过去的键值状态提供给此模型的),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)decoder_input_ids

  • decoder_inputs_embeds (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果您希望比模型的内部嵌入查找矩阵更灵活地控制如何将 decoder_input_ids 索引转换为关联向量,这将非常有用。
  • decoder_position_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 位置嵌入中每个输入序列标记的位置索引。在范围 [0, config.n_positions - 1] 中选择。

    什么是位置 ID?

  • use_cache (bool可选) — 如果设置为 True,则返回 past_key_values 键值状态,并可用于加速解码(请参阅 past_key_values)。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是普通元组。
  • cache_position (形状为 (sequence_length)torch.LongTensor可选) — 描述输入序列标记在序列中位置的索引。与 decoder_position_ids 相反,此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整序列长度。

返回

transformers.modeling_outputs.Seq2SeqModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor 元组 (如果传递了 return_dict=False 或当 config.return_dict=False 时),其中包含各种元素,具体取决于配置 (MoonshineConfig) 和输入。

  • last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor) — 模型解码器最后一层输出端的隐藏状态序列。

    如果使用 past_key_values,则仅输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。

  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layerstuple(torch.FloatTensor) 元组,其中每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head)) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于(请参阅 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出端的隐藏状态,加上可选的初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。

  • encoder_last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor可选) — 模型编码器最后一层输出端的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出端的隐藏状态,加上可选的初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

MoonshineModel forward 方法,覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module 实例,而不是调用此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> import torch
>>> from transformers import AutoFeatureExtractor, MoonshineModel
>>> from datasets import load_dataset

>>> model = MoonshineModel.from_pretrained("UsefulSensors/moonshine-tiny")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values
>>> decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
>>> last_hidden_state = model(input_values, decoder_input_ids=decoder_input_ids).last_hidden_state
>>> list(last_hidden_state.shape)
[1, 2, 288]

_mask_input_features

< >

( input_features: FloatTensor attention_mask: typing.Optional[torch.LongTensor] = None )

根据 SpecAugment,沿时间轴和/或特征轴屏蔽提取的特征。

MoonshineForConditionalGeneration

class transformers.MoonshineForConditionalGeneration

< >

( config: MoonshineConfig )

参数

  • config (MoonshineConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。

带有语言建模头的 Moonshine 模型。可用于自动语音识别。此模型继承自 PreTrainedModel。查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头等)。

此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。

forward

< >

( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, typing.Tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[typing.Tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[typing.Tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • input_values (形状为 (batch_size, audio_length)torch.FloatTensor) — 原始语音波形的浮点值。原始语音波形可以通过将 .flac.wav 音频文件加载到 List[float] 类型数组或 numpy.ndarray 中获得,例如 通过 soundfile 库 (pip install soundfile)。为了将数组准备为 input_values,应使用 AutoFeatureExtractor 进行填充并转换为 torch.FloatTensor 类型的张量。
  • attention_mask (形状为 (batch_size, sequence_length)torch.Tensor可选) — 用于避免对 input_values 中的填充索引执行注意力的掩码。在 [0, 1] 中选择的掩码值:

  • decoder_input_ids (形状为 (batch_size, sequence_length)torch.LongTensor) — 词汇表中输入序列标记的索引。如果您提供填充,默认情况下将忽略填充。

    索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • decoder_attention_mask (形状为 (batch_size, sequence_length)torch.Tensor可选) — 用于避免对填充标记索引执行注意力的掩码。在 [0, 1] 中选择的掩码值:

    • 1 表示 未被掩蔽 的标记,
    • 0 表示 被掩蔽 的标记。

    什么是注意力掩码?

    索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    如果使用 past_key_values,则可以选择仅输入最后的 decoder_input_ids(那些没有将其过去的键值状态提供给此模型的 decoder_input_ids)(请参阅 past_key_values)。

    如果您想更改填充行为,您应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据您的需要进行修改。有关默认策略的更多信息,请参阅 论文 中的图 1。

    • 1 表示头 未被掩蔽
    • 0 表示头 被掩蔽
  • encoder_outputs (tuple(tuple(torch.FloatTensor)可选) — 元组由 (last_hidden_state, 可选: hidden_states, 可选: attentions) 组成,last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)可选) 是编码器最后一层输出端的隐藏状态序列。在解码器的交叉注意力中使用。
  • past_key_values (Cachetuple(tuple(torch.FloatTensor))可选) — 预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于加速顺序解码。这通常包括模型在解码的先前阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv 缓存指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,其中每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head)) 的张量。这也称为旧版缓存格式。

    模型将输出与输入相同的缓存格式。如果未传递 past_key_values,则将返回旧版缓存格式。

    如果使用 past_key_values,则用户可以选择仅输入最后的 decoder_input_ids(那些没有将其过去的键值状态提供给此模型的 decoder_input_ids),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)decoder_input_ids

  • decoder_inputs_embeds (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果您希望比模型的内部嵌入查找矩阵更精确地控制如何将 decoder_input_ids 索引转换为相关的向量,这将非常有用。
  • decoder_position_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 位置嵌入中每个输入序列标记的位置索引。在范围 [0, config.n_positions - 1] 中选择。

    什么是位置 ID?

  • use_cache (bool可选) — 如果设置为 True,则返回 past_key_values 键值状态,并可用于加速解码(请参阅 past_key_values)。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是纯元组。
  • cache_position (形状为 (sequence_length)torch.LongTensor可选) — 索引描述了输入序列标记在序列中的位置。与 decoder_position_ids 相反,此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整序列的长度。
  • labels (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 用于计算语言建模损失的标签。索引应在 [0, ..., config.vocab_size] 或 -100 中(请参阅 input_ids 文档字符串)。索引设置为 -100 的标记将被忽略(掩码),损失仅针对标签在 [0, ..., config.vocab_size] 中的标记计算。

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含各种元素,具体取决于配置 (MoonshineConfig) 和输入。

  • loss (形状为 (1,)torch.FloatTensor可选,当提供 labels 时返回) — 语言建模损失。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 语言建模头的预测分数(SoftMax 之前每个词汇表标记的分数)。

  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layerstuple(torch.FloatTensor) 元组,其中每个元组都有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head)) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于(请参阅 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出端的隐藏状态,加上初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。

  • encoder_last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor可选) — 模型编码器最后一层输出端的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出端的隐藏状态,加上初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

MoonshineForConditionalGeneration 前向方法,覆盖了 __call__ 特殊方法。

尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module 实例,而不是调用此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> import torch
>>> from transformers import AutoProcessor, MoonshineForConditionalGeneration
>>> from datasets import load_dataset

>>> processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> model = MoonshineForConditionalGeneration.from_pretrained("UsefulSensors/moonshine-tiny")

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

>>> inputs = processor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values

>>> generated_ids = model.generate(input_values, max_new_tokens=100)

>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> transcription
'Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.'

generate

< >

( inputs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None prefix_allowed_tokens_fn: typing.Optional[typing.Callable[[int, torch.Tensor], typing.List[int]]] = None synced_gpus: typing.Optional[bool] = None assistant_model: typing.Optional[ForwardRef('PreTrainedModel')] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None negative_prompt_ids: typing.Optional[torch.Tensor] = None negative_prompt_attention_mask: typing.Optional[torch.Tensor] = None use_model_defaults: typing.Optional[bool] = None **kwargs ) ModelOutputtorch.LongTensor

参数

  • inputs (torch.Tensor,形状根据模态而变化,可选) — 用作生成的提示或用作编码器模型输入的序列。如果为 None,则该方法使用 bos_token_id 和批量大小 1 初始化它。对于仅解码器模型,inputs 应采用 input_ids 的格式。对于编码器-解码器模型,inputs 可以表示 input_idsinput_valuesinput_featurespixel_values 中的任何一个。
  • generation_config (GenerationConfig可选) — 要用作生成调用的基本参数化的生成配置。传递给 generate 的与 generation_config 的属性匹配的 **kwargs 将覆盖它们。如果未提供 generation_config,将使用默认值,其加载优先级如下:1) 来自 generation_config.json 模型文件(如果存在);2) 来自模型配置。请注意,未指定的参数将继承 GenerationConfig 的默认值,应检查其文档以参数化生成。
  • logits_processor (LogitsProcessorList可选) — 自定义 logits 处理器,用于补充从参数和生成配置构建的默认 logits 处理器。 如果传递的 logits 处理器已使用参数或生成配置创建,则会抛出错误。 此功能适用于高级用户。
  • stopping_criteria (StoppingCriteriaList可选) — 自定义停止标准,用于补充从参数和生成配置构建的默认停止标准。 如果传递的停止标准已使用参数或生成配置创建,则会抛出错误。 如果您的停止标准取决于 scores 输入,请确保将 return_dict_in_generate=True, output_scores=True 传递给 generate。 此功能适用于高级用户。
  • prefix_allowed_tokens_fn (Callable[[int, torch.Tensor], List[int]]可选) — 如果提供,此函数将 beam search 约束为每步仅允许的标记。 如果未提供,则不应用任何约束。 此函数接受 2 个参数:批次 ID batch_idinput_ids。 它必须返回一个列表,其中包含下一个生成步骤允许的标记,这些标记以批次 ID batch_id 和先前生成的标记 inputs_ids 为条件。 此参数对于以前缀为条件的约束生成很有用,如 Autoregressive Entity Retrieval 中所述。
  • synced_gpus (bool可选) — 是否继续运行 while 循环直到 max_length。 除非被覆盖,否则如果使用 FullyShardedDataParallel 或 DeepSpeed ZeRO Stage 3 与多个 GPU,此标志将设置为 True,以避免如果一个 GPU 在其他 GPU 之前完成生成而导致死锁。 否则,默认为 False
  • assistant_model (PreTrainedModel可选) — 可用于加速生成的辅助模型。 辅助模型必须具有完全相同的 tokenizer。 当使用辅助模型预测候选标记比使用您从中调用 generate 的模型运行生成速度快得多时,就可以实现加速。 因此,辅助模型应该小得多。
  • streamer (BaseStreamer可选) — 将用于流式传输生成序列的 Streamer 对象。 生成的标记通过 streamer.put(token_ids) 传递,并且 streamer 负责任何进一步的处理。
  • negative_prompt_ids (形状为 (batch_size, sequence_length)torch.LongTensor可选) — 某些处理器(如 CFG)所需的负面提示。 批次大小必须与输入批次大小匹配。 这是一个实验性功能,在未来版本中可能会发生 API 更改。
  • negative_prompt_attention_mask (形状为 (batch_size, sequence_length)torch.LongTensor可选) — negative_prompt_ids 的 Attention_mask。
  • use_model_defaults (bool可选) — 当为 True 时,generation_config 中未设置的参数将设置为模型特定的默认生成配置 (model.generation_config),而不是全局默认值 (GenerationConfig())。 如果未设置,则从 v4.50 开始保存的模型会将此标志视为 True
  • kwargs (Dict[str, Any]可选) — generation_config 的临时参数化和/或将转发到模型的 forward 函数的其他模型特定 kwargs。 如果模型是编码器-解码器模型,则编码器特定 kwargs 不应带有前缀,解码器特定 kwargs 应以 decoder_ 为前缀。

返回

ModelOutputtorch.LongTensor

一个 ModelOutput(如果 return_dict_in_generate=True 或当 config.return_dict_in_generate=True 时)或一个 torch.LongTensor

如果模型不是编码器-解码器模型 (model.config.is_encoder_decoder=False),则可能的 ModelOutput 类型为

如果模型是编码器-解码器模型 (model.config.is_encoder_decoder=True),则可能的 ModelOutput 类型为

为具有语言建模头的模型生成标记 ID 序列。

大多数生成控制参数在 generation_config 中设置,如果未传递,则将设置为模型的默认生成配置。 您可以通过将相应的参数传递给 generate() 来覆盖任何 generation_config,例如 .generate(inputs, num_beams=4, do_sample=True)

有关生成策略和代码示例的概述,请查看以下指南

< > 在 GitHub 上更新