Transformers 文档
月光
并获得增强的文档体验
开始使用
Moonshine
概述
Moonshine 模型在 Moonshine: Speech Recognition for Live Transcription and Voice Commands 中被提出,作者是 Nat Jeffries, Evan King, Manjunath Kudlur, Guy Nicholson, James Wang, Pete Warden。
论文摘要如下:
本文介绍了 Moonshine,一个针对实时转录和语音命令处理优化的语音识别模型系列。Moonshine 基于编码器-解码器 Transformer 架构,并采用旋转位置嵌入 (RoPE) 而不是传统的绝对位置嵌入。该模型在各种长度的语音片段上进行训练,但不使用零填充,从而提高了编码器在推理时的效率。当与 OpenAI 的 Whisper tiny-en 进行基准测试时,Moonshine Tiny 在转录 10 秒的语音片段时,计算需求降低了 5 倍,同时在标准评估数据集上的词错误率没有增加。这些结果突出了 Moonshine 在实时和资源受限应用中的潜力。
提示
- Moonshine 改进了 Whisper 的架构
- 它在解码器层中使用 SwiGLU 激活代替 GELU
- 最重要的是,它用旋转位置嵌入 (RoPE) 替换了绝对位置嵌入。这使得 Moonshine 能够处理任意长度的音频输入,这与 Whisper 限制为固定的 30 秒窗口不同。
此模型由 Eustache Le Bihan (eustlb) 贡献。原始代码可以在这里找到。
资源
MoonshineConfig
class transformers.MoonshineConfig
< source >( vocab_size = 32768 hidden_size = 288 intermediate_size = 1152 encoder_num_hidden_layers = 6 decoder_num_hidden_layers = 6 encoder_num_attention_heads = 8 decoder_num_attention_heads = 8 encoder_num_key_value_heads = None decoder_num_key_value_heads = None pad_head_dim_to_multiple_of = None encoder_hidden_act = 'gelu' decoder_hidden_act = 'silu' max_position_embeddings = 512 initializer_range = 0.02 decoder_start_token_id = 1 use_cache = True rope_theta = 10000.0 rope_scaling = None partial_rotary_factor = 0.9 is_encoder_decoder = True attention_bias = False attention_dropout = 0.0 bos_token_id = 1 eos_token_id = 2 **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 32768) — Moonshine 模型的词汇表大小。定义了在调用 MoonshineModel 时传递的inputs_ids
可以表示的不同 token 的数量。 - hidden_size (
int
, 可选, 默认为 288) — 隐藏层表示的维度。 - intermediate_size (
int
, 可选, 默认为 1152) — MLP 表示的维度。 - encoder_num_hidden_layers (
int
, 可选, 默认为 6) — Transformer 编码器中隐藏层的数量。 - decoder_num_hidden_layers (
int
, 可选, 默认为 6) — Transformer 解码器中隐藏层的数量。 - encoder_num_attention_heads (
int
, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头的数量。 - decoder_num_attention_heads (
int
, 可选, 默认为 8) — Transformer 解码器中每个注意力层的注意力头的数量。 - encoder_num_key_value_heads (
int
, 可选) — 这是用于实现分组查询注意力的 key_value 头的数量。如果encoder_num_key_value_heads=encoder_num_attention_heads
,则模型将使用多头注意力 (MHA);如果encoder_num_key_value_heads=1
,则模型将使用多查询注意力 (MQA),否则将使用 GQA。当将多头检查点转换为 GQA 检查点时,每个组的 key 和 value 头应通过对该组内所有原始头进行平均池化来构建。有关更多详细信息,请查看本文。如果未指定,则默认为num_attention_heads
。 - decoder_num_key_value_heads (
int
, 可选) — 这是用于实现分组查询注意力的 key_value 头的数量。如果decoder_num_key_value_heads=decoder_num_attention_heads
,则模型将使用多头注意力 (MHA);如果decoder_num_key_value_heads=1
,则模型将使用多查询注意力 (MQA),否则将使用 GQA。当将多头检查点转换为 GQA 检查点时,每个组的 key 和 value 头应通过对该组内所有原始头进行平均池化来构建。有关更多详细信息,请查看本文。如果未指定,则默认为decoder_num_attention_heads
。 - pad_head_dim_to_multiple_of (
int
, 可选) — 将编码器和解码器中的 head 维度填充到此值的下一个倍数。对于使用某些优化的注意力实现是必要的。 - encoder_hidden_act (
str
或function
, 可选, 默认为"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。 - decoder_hidden_act (
str
或function
, 可选, 默认为"silu"
) — 解码器中的非线性激活函数(函数或字符串)。 - max_position_embeddings (
int
, 可选, 默认为 512) — 此模型可能使用的最大序列长度。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - decoder_start_token_id (
int
, 可选, 默认为 1) — 对应于 “<|startoftranscript|>” 标记,当没有为generate
函数提供decoder_input_ids
时,将自动使用该标记。它用于根据任务指导模型的生成过程。 - use_cache (
bool
, 可选, 默认为True
) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。 - rope_theta (
float
, 可选, 默认为 10000.0) — RoPE 嵌入的基period。 - rope_scaling (
Dict
, 可选) — 包含 RoPE 嵌入缩放配置的字典。 注意:如果您应用新的 rope 类型并期望模型在更长的max_position_embeddings
上工作,我们建议您相应地更新此值。 预期内容:rope_type
(str
):要使用的 RoPE 的子变体。 可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’] 之一,其中 ‘default’ 是原始 RoPE 实现。factor
(float
, 可选):与除 ‘default’ 之外的所有 rope 类型一起使用。 应用于 RoPE 嵌入的缩放因子。 在大多数缩放类型中,x 的factor
将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings
(int
, 可选):与 ‘dynamic’、‘longrope’ 和 ‘llama3’ 一起使用。 预训练期间使用的原始最大位置嵌入。attention_factor
(float
, 可选):与 ‘yarn’ 和 ‘longrope’ 一起使用。 应用于注意力计算的缩放因子。 如果未指定,则默认为实现建议的值,使用factor
字段来推断建议的值。beta_fast
(float
, 可选):仅与 ‘yarn’ 一起使用。 用于设置线性斜坡函数中外推(仅)边界的参数。 如果未指定,则默认为 32。beta_slow
(float
, 可选):仅与 ‘yarn’ 一起使用。 用于设置线性斜坡函数中插值(仅)边界的参数。 如果未指定,则默认为 1。short_factor
(List[float]
, 可选):仅与 ‘longrope’ 一起使用。 应用于短上下文(<original_max_position_embeddings
)的缩放因子。 必须是数字列表,其长度与隐藏层大小除以注意力头的数量再除以 2 的长度相同long_factor
(List[float]
, 可选):仅与 ‘longrope’ 一起使用。 应用于长上下文(<original_max_position_embeddings
)的缩放因子。 必须是数字列表,其长度与隐藏层大小除以注意力头的数量再除以 2 的长度相同low_freq_factor
(float
, 可选):仅与 ‘llama3’ 一起使用。 应用于 RoPE 低频分量的缩放因子high_freq_factor
(float
, 可选):仅与 ‘llama3’ 一起使用。 应用于 RoPE 高频分量的缩放因子 - partial_rotary_factor (
float
, 可选, 默认为 0.9) — 查询和键中将具有旋转嵌入的百分比。 - is_encoder_decoder (
bool
, 可选, 默认为True
) — 模型是否用作编码器/解码器。 - attention_bias (
bool
, 可选, 默认为False
) — 是否在自注意力期间在查询、键、值和输出投影层中使用偏置。 - attention_dropout (
float
, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。 - bos_token_id (
int
, 可选, 默认为 1) — 表示序列开始的 token id。 - eos_token_id (
int
, 可选, 默认为 2) — 表示序列结束的 token id。
这是用于存储 MoonshineModel 配置的配置类。 它用于根据指定的参数实例化 Moonshine 模型,定义模型架构。 使用默认值实例化配置将产生与 Moonshine UsefulSensors/moonshine-tiny 类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。 有关更多信息,请阅读 PretrainedConfig 的文档。
示例
>>> from transformers import MoonshineModel, MoonshineConfig
>>> # Initializing a Moonshine style configuration
>>> configuration = MoonshineConfig().from_pretrained("UsefulSensors/moonshine-tiny")
>>> # Initializing a model from the configuration
>>> model = MoonshineModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
MoonshineModel
class transformers.MoonshineModel
< source >( config: MoonshineConfig )
参数
- config (MoonshineConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。
裸 Moonshine 模型输出原始隐藏状态,顶部没有任何特定的 head。 此模型继承自 PreTrainedModel。 查看超类文档,了解库为其所有模型实现的通用方法(例如,下载或保存、调整输入嵌入大小、剪枝 head 等)。
此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。
forward
< source >( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, typing.Tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[typing.Tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[typing.Tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
参数
- input_values (形状为
(batch_size, audio_length)
的torch.FloatTensor
) — 原始语音波形的浮点值。 原始语音波形可以通过将.flac
或.wav
音频文件加载到类型为List[float]
或numpy.ndarray
的数组中获得,例如 通过 soundfile 库 (pip install soundfile
)。 为了将数组准备为input_values
,应使用 AutoFeatureExtractor 进行填充和转换为torch.FloatTensor
类型的张量。 - attention_mask (形状为
(batch_size, sequence_length)
的torch.Tensor
, 可选) — 用于避免在input_values
中的填充索引上执行注意力的掩码。 在[0, 1]
中选择的掩码值:- 1 表示 未被掩码 的 token,
- 0 表示 被掩码 的 token。 什么是注意力掩码?
- decoder_input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
) — 词汇表中输入序列 token 的索引。 如果您提供填充,默认情况下将忽略填充。索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 。
- decoder_attention_mask (形状为
(batch_size, sequence_length)
的torch.Tensor
, 可选) — 用于避免在填充 token 索引上执行注意力的掩码。 在[0, 1]
中选择的掩码值:- 1 表示 未被掩码 的 token,
- 0 表示 被掩码 的 token。
索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 。
如果使用
past_key_values
,则可以选择仅输入最后的decoder_input_ids
(请参阅past_key_values
)。如果您想更改填充行为,您应该阅读
modeling_opt._prepare_decoder_attention_mask
并根据您的需求进行修改。 有关默认策略的更多信息,请参见 论文 中的图 1。- 1 表示 head 未被掩码,
- 0 表示 head 被掩码。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, 可选) — 元组由 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
) 组成last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
, 可选) 是编码器最后一层输出的隐藏状态序列。 在解码器的交叉注意力中使用。 - past_key_values (
Cache
或tuple(tuple(torch.FloatTensor))
, 可选) — 预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于加速顺序解码。 这通常包括模型在先前解码阶段返回的past_key_values
,当use_cache=True
或config.use_cache=True
时。允许两种格式:
- Cache 实例,请参阅我们的 kv 缓存指南;
- 长度为
config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组都有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量)。 这也称为旧版缓存格式。
模型将输出与作为输入馈送的缓存格式相同的缓存格式。 如果未传递
past_key_values
,则将返回旧版缓存格式。如果使用
past_key_values
,则用户可以选择仅输入最后的decoder_input_ids
(那些没有将其过去的键值状态提供给此模型的),形状为(batch_size, 1)
,而不是所有形状为(batch_size, sequence_length)
的decoder_input_ids
。 - decoder_inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递decoder_input_ids
。如果您希望比模型的内部嵌入查找矩阵更灵活地控制如何将decoder_input_ids
索引转换为关联向量,这将非常有用。 - decoder_position_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
,可选) — 位置嵌入中每个输入序列标记的位置索引。在范围[0, config.n_positions - 1]
中选择。 - use_cache (
bool
,可选) — 如果设置为True
,则返回past_key_values
键值状态,并可用于加速解码(请参阅past_key_values
)。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。 - cache_position (形状为
(sequence_length)
的torch.LongTensor
,可选) — 描述输入序列标记在序列中位置的索引。与decoder_position_ids
相反,此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整序列长度。
返回
transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或当 config.return_dict=False
时),其中包含各种元素,具体取决于配置 (MoonshineConfig) 和输入。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
) — 模型解码器最后一层输出端的隐藏状态序列。如果使用
past_key_values
,则仅输出形状为(batch_size, 1, hidden_size)
的序列的最后一个隐藏状态。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,当传递use_cache=True
或当config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(torch.FloatTensor)
元组,其中每个元组都有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
) 的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于(请参阅
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出端的隐藏状态,加上可选的初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选) — 模型编码器最后一层输出端的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出端的隐藏状态,加上可选的初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
MoonshineModel forward 方法,覆盖了 __call__
特殊方法。
尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module
实例,而不是调用此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> import torch
>>> from transformers import AutoFeatureExtractor, MoonshineModel
>>> from datasets import load_dataset
>>> model = MoonshineModel.from_pretrained("UsefulSensors/moonshine-tiny")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values
>>> decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
>>> last_hidden_state = model(input_values, decoder_input_ids=decoder_input_ids).last_hidden_state
>>> list(last_hidden_state.shape)
[1, 2, 288]
_mask_input_features
< source >( input_features: FloatTensor attention_mask: typing.Optional[torch.LongTensor] = None )
根据 SpecAugment,沿时间轴和/或特征轴屏蔽提取的特征。
MoonshineForConditionalGeneration
class transformers.MoonshineForConditionalGeneration
< source >( config: MoonshineConfig )
参数
- config (MoonshineConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。
带有语言建模头的 Moonshine 模型。可用于自动语音识别。此模型继承自 PreTrainedModel。查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头等)。
此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。
forward
< source >( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, typing.Tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[typing.Tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[typing.Tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
参数
- input_values (形状为
(batch_size, audio_length)
的torch.FloatTensor
) — 原始语音波形的浮点值。原始语音波形可以通过将.flac
或.wav
音频文件加载到List[float]
类型数组或numpy.ndarray
中获得,例如 通过 soundfile 库 (pip install soundfile
)。为了将数组准备为input_values
,应使用 AutoFeatureExtractor 进行填充并转换为torch.FloatTensor
类型的张量。 - attention_mask (形状为
(batch_size, sequence_length)
的torch.Tensor
,可选) — 用于避免对input_values
中的填充索引执行注意力的掩码。在[0, 1]
中选择的掩码值:- 1 表示 未被掩蔽 的标记,
- 0 表示 被掩蔽 的标记。 什么是注意力掩码?
- decoder_input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
) — 词汇表中输入序列标记的索引。如果您提供填充,默认情况下将忽略填充。索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- decoder_attention_mask (形状为
(batch_size, sequence_length)
的torch.Tensor
,可选) — 用于避免对填充标记索引执行注意力的掩码。在[0, 1]
中选择的掩码值:- 1 表示 未被掩蔽 的标记,
- 0 表示 被掩蔽 的标记。
索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
如果使用
past_key_values
,则可以选择仅输入最后的decoder_input_ids
(那些没有将其过去的键值状态提供给此模型的decoder_input_ids
)(请参阅past_key_values
)。如果您想更改填充行为,您应该阅读
modeling_opt._prepare_decoder_attention_mask
并根据您的需要进行修改。有关默认策略的更多信息,请参阅 论文 中的图 1。- 1 表示头 未被掩蔽,
- 0 表示头 被掩蔽。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
,可选) — 元组由 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
) 组成,last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
,可选) 是编码器最后一层输出端的隐藏状态序列。在解码器的交叉注意力中使用。 - past_key_values (
Cache
或tuple(tuple(torch.FloatTensor))
,可选) — 预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于加速顺序解码。这通常包括模型在解码的先前阶段返回的past_key_values
,当use_cache=True
或config.use_cache=True
时。允许两种格式:
- Cache 实例,请参阅我们的 kv 缓存指南;
- 长度为
config.n_layers
的tuple(torch.FloatTensor)
元组,其中每个元组都有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
) 的张量。这也称为旧版缓存格式。
模型将输出与输入相同的缓存格式。如果未传递
past_key_values
,则将返回旧版缓存格式。如果使用
past_key_values
,则用户可以选择仅输入最后的decoder_input_ids
(那些没有将其过去的键值状态提供给此模型的decoder_input_ids
),形状为(batch_size, 1)
,而不是所有形状为(batch_size, sequence_length)
的decoder_input_ids
。 - decoder_inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递decoder_input_ids
。如果您希望比模型的内部嵌入查找矩阵更精确地控制如何将decoder_input_ids
索引转换为相关的向量,这将非常有用。 - decoder_position_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
,可选) — 位置嵌入中每个输入序列标记的位置索引。在范围[0, config.n_positions - 1]
中选择。 - use_cache (
bool
,可选) — 如果设置为True
,则返回past_key_values
键值状态,并可用于加速解码(请参阅past_key_values
)。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是纯元组。 - cache_position (形状为
(sequence_length)
的torch.LongTensor
,可选) — 索引描述了输入序列标记在序列中的位置。与decoder_position_ids
相反,此张量不受填充的影响。它用于在正确的位置更新缓存并推断完整序列的长度。 - labels (形状为
(batch_size, sequence_length)
的torch.LongTensor
,可选) — 用于计算语言建模损失的标签。索引应在[0, ..., config.vocab_size]
或 -100 中(请参阅input_ids
文档字符串)。索引设置为-100
的标记将被忽略(掩码),损失仅针对标签在[0, ..., config.vocab_size]
中的标记计算。
返回
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (MoonshineConfig) 和输入。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 语言建模损失。 -
logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头的预测分数(SoftMax 之前每个词汇表标记的分数)。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,当传递use_cache=True
或当config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(torch.FloatTensor)
元组,其中每个元组都有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
) 的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),可用于(请参阅
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出端的隐藏状态,加上初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选) — 模型编码器最后一层输出端的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出,+ 每层输出一个),形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出端的隐藏状态,加上初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
MoonshineForConditionalGeneration 前向方法,覆盖了 __call__
特殊方法。
尽管 forward 传递的配方需要在该函数中定义,但应该在之后调用 Module
实例,而不是调用此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> import torch
>>> from transformers import AutoProcessor, MoonshineForConditionalGeneration
>>> from datasets import load_dataset
>>> processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> model = MoonshineForConditionalGeneration.from_pretrained("UsefulSensors/moonshine-tiny")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = processor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values
>>> generated_ids = model.generate(input_values, max_new_tokens=100)
>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> transcription
'Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.'
generate
< source >( inputs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None prefix_allowed_tokens_fn: typing.Optional[typing.Callable[[int, torch.Tensor], typing.List[int]]] = None synced_gpus: typing.Optional[bool] = None assistant_model: typing.Optional[ForwardRef('PreTrainedModel')] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None negative_prompt_ids: typing.Optional[torch.Tensor] = None negative_prompt_attention_mask: typing.Optional[torch.Tensor] = None use_model_defaults: typing.Optional[bool] = None **kwargs ) → ModelOutput 或 torch.LongTensor
参数
- inputs (
torch.Tensor
,形状根据模态而变化,可选) — 用作生成的提示或用作编码器模型输入的序列。如果为None
,则该方法使用bos_token_id
和批量大小 1 初始化它。对于仅解码器模型,inputs
应采用input_ids
的格式。对于编码器-解码器模型,inputs 可以表示input_ids
、input_values
、input_features
或pixel_values
中的任何一个。 - generation_config (GenerationConfig,可选) — 要用作生成调用的基本参数化的生成配置。传递给 generate 的与
generation_config
的属性匹配的**kwargs
将覆盖它们。如果未提供generation_config
,将使用默认值,其加载优先级如下:1) 来自generation_config.json
模型文件(如果存在);2) 来自模型配置。请注意,未指定的参数将继承 GenerationConfig 的默认值,应检查其文档以参数化生成。 - logits_processor (
LogitsProcessorList
,可选) — 自定义 logits 处理器,用于补充从参数和生成配置构建的默认 logits 处理器。 如果传递的 logits 处理器已使用参数或生成配置创建,则会抛出错误。 此功能适用于高级用户。 - stopping_criteria (
StoppingCriteriaList
,可选) — 自定义停止标准,用于补充从参数和生成配置构建的默认停止标准。 如果传递的停止标准已使用参数或生成配置创建,则会抛出错误。 如果您的停止标准取决于scores
输入,请确保将return_dict_in_generate=True, output_scores=True
传递给generate
。 此功能适用于高级用户。 - prefix_allowed_tokens_fn (
Callable[[int, torch.Tensor], List[int]]
,可选) — 如果提供,此函数将 beam search 约束为每步仅允许的标记。 如果未提供,则不应用任何约束。 此函数接受 2 个参数:批次 IDbatch_id
和input_ids
。 它必须返回一个列表,其中包含下一个生成步骤允许的标记,这些标记以批次 IDbatch_id
和先前生成的标记inputs_ids
为条件。 此参数对于以前缀为条件的约束生成很有用,如 Autoregressive Entity Retrieval 中所述。 - synced_gpus (
bool
,可选) — 是否继续运行 while 循环直到 max_length。 除非被覆盖,否则如果使用FullyShardedDataParallel
或 DeepSpeed ZeRO Stage 3 与多个 GPU,此标志将设置为True
,以避免如果一个 GPU 在其他 GPU 之前完成生成而导致死锁。 否则,默认为False
。 - assistant_model (
PreTrainedModel
,可选) — 可用于加速生成的辅助模型。 辅助模型必须具有完全相同的 tokenizer。 当使用辅助模型预测候选标记比使用您从中调用 generate 的模型运行生成速度快得多时,就可以实现加速。 因此,辅助模型应该小得多。 - streamer (
BaseStreamer
,可选) — 将用于流式传输生成序列的 Streamer 对象。 生成的标记通过streamer.put(token_ids)
传递,并且 streamer 负责任何进一步的处理。 - negative_prompt_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
,可选) — 某些处理器(如 CFG)所需的负面提示。 批次大小必须与输入批次大小匹配。 这是一个实验性功能,在未来版本中可能会发生 API 更改。 - negative_prompt_attention_mask (形状为
(batch_size, sequence_length)
的torch.LongTensor
,可选) —negative_prompt_ids
的 Attention_mask。 - use_model_defaults (
bool
,可选) — 当为True
时,generation_config
中未设置的参数将设置为模型特定的默认生成配置 (model.generation_config
),而不是全局默认值 (GenerationConfig()
)。 如果未设置,则从v4.50
开始保存的模型会将此标志视为True
。 - kwargs (
Dict[str, Any]
,可选) —generation_config
的临时参数化和/或将转发到模型的forward
函数的其他模型特定 kwargs。 如果模型是编码器-解码器模型,则编码器特定 kwargs 不应带有前缀,解码器特定 kwargs 应以 decoder_ 为前缀。
返回
ModelOutput 或 torch.LongTensor
一个 ModelOutput(如果 return_dict_in_generate=True
或当 config.return_dict_in_generate=True
时)或一个 torch.LongTensor
。
如果模型不是编码器-解码器模型 (model.config.is_encoder_decoder=False
),则可能的 ModelOutput 类型为
如果模型是编码器-解码器模型 (model.config.is_encoder_decoder=True
),则可能的 ModelOutput 类型为
为具有语言建模头的模型生成标记 ID 序列。
大多数生成控制参数在 generation_config
中设置,如果未传递,则将设置为模型的默认生成配置。 您可以通过将相应的参数传递给 generate() 来覆盖任何 generation_config
,例如 .generate(inputs, num_beams=4, do_sample=True)
。
有关生成策略和代码示例的概述,请查看以下指南。