Transformers 文档

Moonshine

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

PyTorch FlashAttention SDPA

Moonshine

Moonshine 是一个编码器-解码器语音识别模型,专为实时转录和识别语音命令而优化。Moonshine 没有使用传统的绝对位置嵌入,而是使用旋转位置嵌入 (RoPE) 来处理不同长度的语音,无需填充。这提高了推理效率,使其非常适合资源受限的设备。

你可以在 Useful Sensors 组织下找到所有原始的 Moonshine 检查点。

点击右侧边栏中的 Moonshine 模型,查看更多关于如何将 Moonshine 应用于不同语音识别任务的示例。

下面的示例演示了如何使用 PipelineAutoModel 类将语音转录为文本。

流水线
自动模型
import torch
from transformers import pipeline

pipeline = pipeline(
    task="automatic-speech-recognition",
    model="UsefulSensors/moonshine-base",
    torch_dtype=torch.float16,
    device=0
)
pipeline("https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac")

MoonshineConfig

class transformers.MoonshineConfig

< >

( vocab_size = 32768 hidden_size = 288 intermediate_size = 1152 encoder_num_hidden_layers = 6 decoder_num_hidden_layers = 6 encoder_num_attention_heads = 8 decoder_num_attention_heads = 8 encoder_num_key_value_heads = None decoder_num_key_value_heads = None pad_head_dim_to_multiple_of = None encoder_hidden_act = 'gelu' decoder_hidden_act = 'silu' max_position_embeddings = 512 initializer_range = 0.02 decoder_start_token_id = 1 use_cache = True rope_theta = 10000.0 rope_scaling = None partial_rotary_factor = 0.9 is_encoder_decoder = True attention_bias = False attention_dropout = 0.0 bos_token_id = 1 eos_token_id = 2 **kwargs )

参数

  • vocab_size (int, 可选, 默认为 32768) — Moonshine 模型的词汇表大小。定义了在调用 MoonshineModel 时传入的 inputs_ids 可以表示的不同词元的数量。
  • hidden_size (int, 可选, 默认为 288) — 隐藏表示的维度。
  • intermediate_size (int, 可选, 默认为 1152) — MLP 表示的维度。
  • encoder_num_hidden_layers (int, 可选, 默认为 6) — Transformer 编码器中的隐藏层数量。
  • decoder_num_hidden_layers (int, 可选, 默认为 6) — Transformer 解码器中的隐藏层数量。
  • encoder_num_attention_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数量。
  • decoder_num_attention_heads (int, 可选, 默认为 8) — Transformer 解码器中每个注意力层的注意力头数量。
  • encoder_num_key_value_heads (int, 可选) — 这是用于实现分组查询注意力(Grouped Query Attention)的键值头数量。如果 encoder_num_key_value_heads=encoder_num_attention_heads,模型将使用多头注意力(MHA);如果 encoder_num_key_value_heads=1,模型将使用多查询注意力(MQA);否则将使用 GQA。将多头检查点转换为 GQA 检查点时,每个分组的键和值头应通过对该组内所有原始头进行均值池化来构建。更多详情,请查阅这篇论文。如果未指定,将默认为 num_attention_heads
  • decoder_num_key_value_heads (int, 可选) — 这是用于实现分组查询注意力(Grouped Query Attention)的键值头数量。如果 decoder_num_key_value_heads=decoder_num_attention_heads,模型将使用多头注意力(MHA);如果 decoder_num_key_value_heads=1,模型将使用多查询注意力(MQA);否则将使用 GQA。将多头检查点转换为 GQA 检查点时,每个分组的键和值头应通过对该组内所有原始头进行均值池化来构建。更多详情,请查阅这篇论文。如果未指定,将默认为 decoder_num_attention_heads
  • pad_head_dim_to_multiple_of (int, 可选) — 将编码器和解码器中的头维度填充到该值的下一个倍数。对于使用某些优化的注意力实现是必需的。
  • encoder_hidden_act (str or function, 可选, 默认为 "gelu") — 编码器中的非线性激活函数(函数或字符串)。
  • decoder_hidden_act (str or function, 可选, 默认为 "silu") — 解码器中的非线性激活函数(函数或字符串)。
  • max_position_embeddings (int, 可选, 默认为 512) — 该模型可能使用的最大序列长度。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • decoder_start_token_id (int, 可选, 默认为 1) — 对应于“<|startoftranscript|>”词元,当未向 generate 函数提供 decoder_input_ids 时会自动使用。它用于根据任务指导模型的生成过程。
  • use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后一个键/值注意力(并非所有模型都使用)。
  • rope_theta (float, 可选, 默认为 10000.0) — RoPE 嵌入的基础周期。
  • rope_scaling (Dict, 可选) — 包含 RoPE 嵌入缩放配置的字典。注意:如果你应用了新的 RoPE 类型并期望模型能在更长的 max_position_embeddings 上工作,我们建议你相应地更新此值。预期内容:rope_type (str):要使用的 RoPE 子变体。可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’] 之一,其中 ‘default’ 是原始的 RoPE 实现。factor (float, 可选):除 ‘default’ 外的所有 RoPE 类型都使用。应用于 RoPE 嵌入的缩放因子。在大多数缩放类型中,factor 为 x 将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings (int, 可选):与 ‘dynamic’、‘longrope’ 和 ‘llama3’ 一起使用。预训练期间使用的原始最大位置嵌入。attention_factor (float, 可选):与 ‘yarn’ 和 ‘longrope’ 一起使用。应用于注意力计算的缩放因子。如果未指定,则默认为实现推荐的值,使用 factor 字段推断建议值。beta_fast (float, 可选):仅与 ‘yarn’ 一起使用。用于设置线性斜坡函数中外推(仅限)边界的参数。如果未指定,默认为 32。beta_slow (float, 可选):仅与 ‘yarn’ 一起使用。用于设置线性斜坡函数中内插(仅限)边界的参数。如果未指定,默认为 1。short_factor (list[float], 可选):仅与 ‘longrope’ 一起使用。应用于短上下文(< original_max_position_embeddings)的缩放因子。必须是一个数字列表,其长度与隐藏大小除以注意力头数再除以 2 相同。long_factor (list[float], 可选):仅与 ‘longrope’ 一起使用。应用于长上下文(> original_max_position_embeddings)的缩放因子。必须是一个数字列表,其长度与隐藏大小除以注意力头数再除以 2 相同。low_freq_factor (float, 可选):仅与 ‘llama3’ 一起使用。应用于 RoPE 低频分量的缩放因子。high_freq_factor (float, 可选):仅与 ‘llama3’ 一起使用。应用于 RoPE 高频分量的缩放因子。
  • partial_rotary_factor (float, 可选, 默认为 0.9) — 将应用旋转嵌入的查询和键的百分比。
  • is_encoder_decoder (bool, 可选, 默认为 True) — 模型是否用作编码器/解码器。
  • attention_bias (bool, 可选, 默认为 False) — 在自注意力期间是否在查询、键、值和输出投影层中使用偏置。
  • attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的丢弃率。
  • bos_token_id (int, 可选, 默认为 1) — 表示序列开始的词元 ID。
  • eos_token_id (int, 可选, 默认为 2) — 表示序列结束的词元 ID。

这是用于存储 MoonshineModel 配置的配置类。它用于根据指定的参数实例化 Moonshine 模型,定义模型架构。使用默认值实例化配置将产生与 Moonshine UsefulSensors/moonshine-tiny 类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import MoonshineModel, MoonshineConfig

>>> # Initializing a Moonshine style configuration
>>> configuration = MoonshineConfig().from_pretrained("UsefulSensors/moonshine-tiny")

>>> # Initializing a model from the configuration
>>> model = MoonshineModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

MoonshineModel

class transformers.MoonshineModel

< >

( config: MoonshineConfig )

参数

  • config (MoonshineConfig) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。

基础的 Moonshine 模型,输出原始的隐藏状态,顶部没有任何特定的头。

该模型继承自 PreTrainedModel。请查阅超类文档以了解该库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头等)。

该模型也是一个 PyTorch torch.nn.Module 子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< >

( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)

参数

  • input_values (torch.FloatTensor,形状为 (batch_size, audio_length)) — 原始语音波形的浮点值。原始语音波形可以通过将 .flac.wav 音频文件加载到 list[float] 类型的数组或 numpy.ndarray 中获得,例如通过 soundfile 库(pip install soundfile)。为了将数组准备成 input_values,应使用 AutoFeatureExtractor 进行填充并转换为 torch.FloatTensor 类型的张量。
  • attention_mask (torch.LongTensor,形状为 (batch_size, sequence_length), 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示词元未被掩码
    • 0 表示词元已被掩码

    什么是注意力掩码?

  • decoder_input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列词元的索引。如果您提供填充,默认情况下将被忽略。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • decoder_attention_mask (torch.Tensor,形状为 (batch_size, sequence_length)可选) — 用于避免对填充标记索引执行注意力计算的掩码。掩码值的选择范围是 [0, 1]

    • 1 表示标记未被掩码
    • 0 表示标记已被掩码

    什么是注意力掩码?

    索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    如果使用 past_key_values,可以选择只输入最后的 decoder_input_ids(参见 past_key_values)。

    如果你想改变填充行为,你应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据你的需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。

    • 1 表示注意力头未被掩码
    • 0 表示注意力头已被掩码
  • encoder_outputs (tuple[tuple[torch.FloatTensor]], 可选) — 元组,包含 (last_hidden_state, 可选: hidden_states, 可选: attentions)。last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力机制。
  • past_key_values (Union[~cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType]) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包含在解码的前一个阶段,当 use_cache=Trueconfig.use_cache=True 时,由模型返回的 past_key_values

    允许两种格式:

    • 一个 Cache 实例,请参阅我们的 kv 缓存指南
    • 一个长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为传统缓存格式。

    模型将输出与输入相同的缓存格式。如果没有传递 past_key_values,将返回传统缓存格式。

    如果使用 past_key_values,用户可以选择只输入最后的 input_ids(那些没有提供其过去键值状态给此模型的 `input_ids`),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)input_ids

  • decoder_inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果你希望对如何将 decoder_input_ids 索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这会非常有用。
  • decoder_position_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在 [0, config.n_positions - 1]

    什么是位置 ID?

  • use_cache (bool, 可选) — 如果设置为 True,将返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • cache_position (torch.LongTensor,形状为 (sequence_length)可选) — 表示输入序列标记在序列中的位置的索引。与 position_ids 相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。

返回

transformers.modeling_outputs.Seq2SeqModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置 (MoonshineConfig) 和输入包含各种元素。

  • last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)) — 模型解码器最后一层输出的隐藏状态序列。

    如果使用了 past_key_values,则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。

  • past_key_values (EncoderDecoderCache, 可选, 当传递 use_cache=Trueconfig.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。更多细节,请参阅我们的 kv 缓存指南

    包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

  • cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

  • encoder_last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

MoonshineModel 的前向方法,重写了 __call__ 特殊方法。

虽然前向传播的流程需要在此函数中定义,但之后应该调用 Module 实例而不是此函数,因为前者会负责运行预处理和后处理步骤,而后者会静默地忽略它们。

示例

>>> import torch
>>> from transformers import AutoFeatureExtractor, MoonshineModel
>>> from datasets import load_dataset

>>> model = MoonshineModel.from_pretrained("UsefulSensors/moonshine-tiny")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values
>>> decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
>>> last_hidden_state = model(input_values, decoder_input_ids=decoder_input_ids).last_hidden_state
>>> list(last_hidden_state.shape)
[1, 2, 288]

_mask_input_features

< >

( input_features: FloatTensor attention_mask: typing.Optional[torch.LongTensor] = None )

根据 SpecAugment 沿时间轴和/或特征轴对提取的特征进行掩码。

MoonshineForConditionalGeneration

class transformers.MoonshineForConditionalGeneration

< >

( config: MoonshineConfig )

参数

  • config (MoonshineConfig) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有语言模型头的 Moonshine 模型。可用于自动语音识别。

该模型继承自 PreTrainedModel。请查阅超类文档以了解该库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头等)。

该模型也是一个 PyTorch torch.nn.Module 子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< >

( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • input_values (torch.FloatTensor,形状为 (batch_size, audio_length)) — 原始语音波形的浮点数值。可以通过将 .flac.wav 音频文件加载到 list[float]numpy.ndarray 类型的数组中来获取原始语音波形,例如通过 soundfile 库(pip install soundfile)。为了将数组准备成 input_values,应使用 AutoFeatureExtractor 进行填充并转换为 torch.FloatTensor 类型的张量。
  • attention_mask (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 用于避免对填充标记索引执行注意力计算的掩码。掩码值的选择范围是 [0, 1]

    • 1 表示标记未被掩码
    • 0 表示标记已被掩码

    什么是注意力掩码?

  • decoder_input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。如果你提供了填充,默认情况下将被忽略。

    索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

  • decoder_attention_mask (torch.Tensor,形状为 (batch_size, sequence_length)可选) — 用于避免对填充标记索引执行注意力计算的掩码。掩码值的选择范围是 [0, 1]

    • 1 表示标记未被掩码
    • 0 表示标记已被掩码

    什么是注意力掩码?

    索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    如果使用 past_key_values,可以选择只输入最后的 decoder_input_ids(参见 past_key_values)。

    如果你想改变填充行为,你应该阅读 modeling_opt._prepare_decoder_attention_mask 并根据你的需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。

    • 1 表示注意力头未被掩码
    • 0 表示注意力头已被掩码
  • encoder_outputs (tuple[tuple[torch.FloatTensor]], 可选) — 元组,包含 (last_hidden_state, 可选: hidden_states, 可选: attentions)。last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力机制。
  • past_key_values (Union[~cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType]) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包含在解码的前一个阶段,当 use_cache=Trueconfig.use_cache=True 时,由模型返回的 past_key_values

    允许两种格式:

    • 一个 Cache 实例,请参阅我们的 kv 缓存指南
    • 一个长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也被称为传统缓存格式。

    模型将输出与输入相同的缓存格式。如果没有传递 past_key_values,将返回传统缓存格式。

    如果使用 past_key_values,用户可以选择只输入最后的 input_ids(那些没有提供其过去键值状态给此模型的 `input_ids`),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)input_ids

  • decoder_inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果你希望对如何将 decoder_input_ids 索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这会非常有用。
  • decoder_position_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在 [0, config.n_positions - 1]

    什么是位置 ID?

  • use_cache (bool, 可选) — 如果设置为 True,将返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • cache_position (torch.LongTensor,形状为 (sequence_length)可选) — 表示输入序列标记在序列中的位置的索引。与 position_ids 相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。
  • labels (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 用于计算语言模型损失的标签。索引应在 [0, ..., config.vocab_size] 或 -100 之间(参见 input_ids 文档字符串)。索引设置为 -100 的标记将被忽略(掩码),损失仅对标签在 [0, ..., config.vocab_size] 范围内的标记计算。

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置 (MoonshineConfig) 和输入包含各种元素。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。

  • past_key_values (EncoderDecoderCache, 可选, 当传递 use_cache=Trueconfig.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。更多细节,请参阅我们的 kv 缓存指南

    包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

  • cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

  • encoder_last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

MoonshineForConditionalGeneration 的前向方法,重写了 __call__ 特殊方法。

虽然前向传播的流程需要在此函数中定义,但之后应该调用 Module 实例而不是此函数,因为前者会负责运行预处理和后处理步骤,而后者会静默地忽略它们。

示例

>>> import torch
>>> from transformers import AutoProcessor, MoonshineForConditionalGeneration
>>> from datasets import load_dataset

>>> processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> model = MoonshineForConditionalGeneration.from_pretrained("UsefulSensors/moonshine-tiny")

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")

>>> inputs = processor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values

>>> generated_ids = model.generate(input_values, max_new_tokens=100)

>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> transcription
'Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.'

生成

< >

( inputs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None prefix_allowed_tokens_fn: typing.Optional[typing.Callable[[int, torch.Tensor], list[int]]] = None synced_gpus: typing.Optional[bool] = None assistant_model: typing.Optional[ForwardRef('PreTrainedModel')] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None negative_prompt_ids: typing.Optional[torch.Tensor] = None negative_prompt_attention_mask: typing.Optional[torch.Tensor] = None use_model_defaults: typing.Optional[bool] = None custom_generate: typing.Optional[str] = None **kwargs ) ModelOutputtorch.LongTensor

参数

  • inputs (torch.Tensor,形状因模态而异,可选) — 用作生成提示或编码器模型输入的序列。如果为 None,该方法会用 bos_token_id 和批大小为 1 来初始化它。对于仅解码器模型,inputs 应为 input_ids 格式。对于编码器-解码器模型,inputs 可以表示 input_idsinput_valuesinput_featurespixel_values 中的任何一种。
  • generation_config (GenerationConfig, 可选) — 用于生成调用的基础参数化的生成配置。传递给 generate 的与 generation_config 属性匹配的 **kwargs 将覆盖它们。如果未提供 generation_config,将使用默认配置,其加载优先级如下:1) 从 generation_config.json 模型文件(如果存在);2) 从模型配置。请注意,未指定的参数将继承 GenerationConfig 的默认值,应查阅其文档以参数化生成过程。
  • logits_processor (LogitsProcessorList, 可选) — 自定义 logits 处理器,补充从参数和生成配置中构建的默认 logits 处理器。如果传递的 logit 处理器已经通过参数或生成配置创建,则会抛出错误。此功能适用于高级用户。
  • stopping_criteria (StoppingCriteriaList, 可选) — 自定义停止标准,补充从参数和生成配置中构建的默认停止标准。如果传递的停止标准已经通过参数或生成配置创建,则会抛出错误。如果你的停止标准依赖于 scores 输入,请确保向 generate 传递 return_dict_in_generate=True, output_scores=True。此功能适用于高级用户。
  • prefix_allowed_tokens_fn (Callable[[int, torch.Tensor], list[int]], 可选) — 如果提供,此函数将在每一步将束搜索限制为仅允许的标记。如果未提供,则不应用任何约束。此函数接受 2 个参数:批次 ID batch_idinput_ids。它必须返回一个列表,其中包含根据批次 ID batch_id 和先前生成的标记 inputs_ids 条件下的下一个生成步骤允许的标记。此参数对于基于前缀的约束生成非常有用,如 Autoregressive Entity Retrieval 中所述。
  • synced_gpus (bool, 可选) — 是否继续运行 while 循环直到达到 max_length。除非被覆盖,否则在使用具有多个 GPU 的 FullyShardedDataParallel 或 DeepSpeed ZeRO Stage 3 时,此标志将设置为 True,以避免在一个 GPU 完成生成而其他 GPU 未完成时发生死锁。否则,默认为 False
  • assistant_model (PreTrainedModel, 可选) — 可用于加速生成的辅助模型。辅助模型必须具有完全相同的分词器。当使用辅助模型预测候选标记比使用你正在调用 generate 的模型进行生成快得多时,可以实现加速。因此,辅助模型应该小得多。
  • streamer (BaseStreamer, 可选) — 用于流式传输生成序列的 Streamer 对象。生成的标记通过 streamer.put(token_ids) 传递,streamer 负责任何进一步的处理。
  • negative_prompt_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 某些处理器(如 CFG)所需的负面提示。批次大小必须与输入批次大小匹配。这是一个实验性功能,未来版本中可能会有破坏性的 API 变更。
  • negative_prompt_attention_mask (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — negative_prompt_ids 的注意力掩码。
  • use_model_defaults (bool, 可选) — 当为 True 时,generation_config 中未设置的参数将被设置为模型特定的默认生成配置 (model.generation_config),而不是全局默认值 (GenerationConfig())。如果未设置,从 v4.50 开始保存的模型将认为此标志为 True
  • custom_generate (str, 可选) — 包含 huggingface.co 仓库名称的字符串。如果提供,将执行该仓库的 custom_generate/generate.py 文件中定义的自定义 generate 函数,而不是标准的 generate 方法。请注意,生成逻辑完全在该仓库中定义,返回类型可能与标准的 generate 方法不同。
  • kwargs (dict[str, Any], 可选) — generation_config 的临时参数化和/或将转发到模型 forward 函数的其他模型特定 kwargs。如果模型是编码器-解码器模型,编码器特定的 kwargs 不应有前缀,解码器特定的 kwargs 应以 decoder_ 为前缀。

返回

ModelOutputtorch.LongTensor

一个 ModelOutput(如果 return_dict_in_generate=Trueconfig.return_dict_in_generate=True)或一个 torch.LongTensor

如果模型不是编码器-解码器模型(model.config.is_encoder_decoder=False),则可能的 ModelOutput 类型为

如果模型是编码器-解码器模型(model.config.is_encoder_decoder=True),则可能的 ModelOutput 类型为

为具有语言建模头的模型生成词元 ID 序列。

大多数控制生成的参数都在 generation_config 中设置,如果未传递,将设置为模型的默认生成配置。你可以通过将相应参数传递给 generate() 来覆盖任何 generation_config,例如 .generate(inputs, num_beams=4, do_sample=True)

有关生成策略和代码示例的概述,请查阅以下指南

< > 在 GitHub 上更新