Transformers 文档
Moonshine
并获得增强的文档体验
开始使用
Moonshine
Moonshine 是一个编码器-解码器语音识别模型,专为实时转录和识别语音命令而优化。Moonshine 没有使用传统的绝对位置嵌入,而是使用旋转位置嵌入 (RoPE) 来处理不同长度的语音,无需填充。这提高了推理效率,使其非常适合资源受限的设备。
你可以在 Useful Sensors 组织下找到所有原始的 Moonshine 检查点。
点击右侧边栏中的 Moonshine 模型,查看更多关于如何将 Moonshine 应用于不同语音识别任务的示例。
下面的示例演示了如何使用 Pipeline 或 AutoModel 类将语音转录为文本。
import torch
from transformers import pipeline
pipeline = pipeline(
task="automatic-speech-recognition",
model="UsefulSensors/moonshine-base",
torch_dtype=torch.float16,
device=0
)
pipeline("https://huggingface.co/datasets/Narsil/asr_dummy/resolve/main/mlk.flac")
MoonshineConfig
class transformers.MoonshineConfig
< 来源 >( vocab_size = 32768 hidden_size = 288 intermediate_size = 1152 encoder_num_hidden_layers = 6 decoder_num_hidden_layers = 6 encoder_num_attention_heads = 8 decoder_num_attention_heads = 8 encoder_num_key_value_heads = None decoder_num_key_value_heads = None pad_head_dim_to_multiple_of = None encoder_hidden_act = 'gelu' decoder_hidden_act = 'silu' max_position_embeddings = 512 initializer_range = 0.02 decoder_start_token_id = 1 use_cache = True rope_theta = 10000.0 rope_scaling = None partial_rotary_factor = 0.9 is_encoder_decoder = True attention_bias = False attention_dropout = 0.0 bos_token_id = 1 eos_token_id = 2 **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 32768) — Moonshine 模型的词汇表大小。定义了在调用 MoonshineModel 时传入的inputs_ids
可以表示的不同词元的数量。 - hidden_size (
int
, 可选, 默认为 288) — 隐藏表示的维度。 - intermediate_size (
int
, 可选, 默认为 1152) — MLP 表示的维度。 - encoder_num_hidden_layers (
int
, 可选, 默认为 6) — Transformer 编码器中的隐藏层数量。 - decoder_num_hidden_layers (
int
, 可选, 默认为 6) — Transformer 解码器中的隐藏层数量。 - encoder_num_attention_heads (
int
, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数量。 - decoder_num_attention_heads (
int
, 可选, 默认为 8) — Transformer 解码器中每个注意力层的注意力头数量。 - encoder_num_key_value_heads (
int
, 可选) — 这是用于实现分组查询注意力(Grouped Query Attention)的键值头数量。如果encoder_num_key_value_heads=encoder_num_attention_heads
,模型将使用多头注意力(MHA);如果encoder_num_key_value_heads=1
,模型将使用多查询注意力(MQA);否则将使用 GQA。将多头检查点转换为 GQA 检查点时,每个分组的键和值头应通过对该组内所有原始头进行均值池化来构建。更多详情,请查阅这篇论文。如果未指定,将默认为num_attention_heads
。 - decoder_num_key_value_heads (
int
, 可选) — 这是用于实现分组查询注意力(Grouped Query Attention)的键值头数量。如果decoder_num_key_value_heads=decoder_num_attention_heads
,模型将使用多头注意力(MHA);如果decoder_num_key_value_heads=1
,模型将使用多查询注意力(MQA);否则将使用 GQA。将多头检查点转换为 GQA 检查点时,每个分组的键和值头应通过对该组内所有原始头进行均值池化来构建。更多详情,请查阅这篇论文。如果未指定,将默认为decoder_num_attention_heads
。 - pad_head_dim_to_multiple_of (
int
, 可选) — 将编码器和解码器中的头维度填充到该值的下一个倍数。对于使用某些优化的注意力实现是必需的。 - encoder_hidden_act (
str
orfunction
, 可选, 默认为"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。 - decoder_hidden_act (
str
orfunction
, 可选, 默认为"silu"
) — 解码器中的非线性激活函数(函数或字符串)。 - max_position_embeddings (
int
, 可选, 默认为 512) — 该模型可能使用的最大序列长度。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - decoder_start_token_id (
int
, 可选, 默认为 1) — 对应于“<|startoftranscript|>”词元,当未向generate
函数提供decoder_input_ids
时会自动使用。它用于根据任务指导模型的生成过程。 - use_cache (
bool
, 可选, 默认为True
) — 模型是否应返回最后一个键/值注意力(并非所有模型都使用)。 - rope_theta (
float
, 可选, 默认为 10000.0) — RoPE 嵌入的基础周期。 - rope_scaling (
Dict
, 可选) — 包含 RoPE 嵌入缩放配置的字典。注意:如果你应用了新的 RoPE 类型并期望模型能在更长的max_position_embeddings
上工作,我们建议你相应地更新此值。预期内容:rope_type
(str
):要使用的 RoPE 子变体。可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’] 之一,其中 ‘default’ 是原始的 RoPE 实现。factor
(float
, 可选):除 ‘default’ 外的所有 RoPE 类型都使用。应用于 RoPE 嵌入的缩放因子。在大多数缩放类型中,factor
为 x 将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings
(int
, 可选):与 ‘dynamic’、‘longrope’ 和 ‘llama3’ 一起使用。预训练期间使用的原始最大位置嵌入。attention_factor
(float
, 可选):与 ‘yarn’ 和 ‘longrope’ 一起使用。应用于注意力计算的缩放因子。如果未指定,则默认为实现推荐的值,使用factor
字段推断建议值。beta_fast
(float
, 可选):仅与 ‘yarn’ 一起使用。用于设置线性斜坡函数中外推(仅限)边界的参数。如果未指定,默认为 32。beta_slow
(float
, 可选):仅与 ‘yarn’ 一起使用。用于设置线性斜坡函数中内插(仅限)边界的参数。如果未指定,默认为 1。short_factor
(list[float]
, 可选):仅与 ‘longrope’ 一起使用。应用于短上下文(<original_max_position_embeddings
)的缩放因子。必须是一个数字列表,其长度与隐藏大小除以注意力头数再除以 2 相同。long_factor
(list[float]
, 可选):仅与 ‘longrope’ 一起使用。应用于长上下文(>original_max_position_embeddings
)的缩放因子。必须是一个数字列表,其长度与隐藏大小除以注意力头数再除以 2 相同。low_freq_factor
(float
, 可选):仅与 ‘llama3’ 一起使用。应用于 RoPE 低频分量的缩放因子。high_freq_factor
(float
, 可选):仅与 ‘llama3’ 一起使用。应用于 RoPE 高频分量的缩放因子。 - partial_rotary_factor (
float
, 可选, 默认为 0.9) — 将应用旋转嵌入的查询和键的百分比。 - is_encoder_decoder (
bool
, 可选, 默认为True
) — 模型是否用作编码器/解码器。 - attention_bias (
bool
, 可选, 默认为False
) — 在自注意力期间是否在查询、键、值和输出投影层中使用偏置。 - attention_dropout (
float
, 可选, 默认为 0.0) — 注意力概率的丢弃率。 - bos_token_id (
int
, 可选, 默认为 1) — 表示序列开始的词元 ID。 - eos_token_id (
int
, 可选, 默认为 2) — 表示序列结束的词元 ID。
这是用于存储 MoonshineModel 配置的配置类。它用于根据指定的参数实例化 Moonshine 模型,定义模型架构。使用默认值实例化配置将产生与 Moonshine UsefulSensors/moonshine-tiny 类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。
示例
>>> from transformers import MoonshineModel, MoonshineConfig
>>> # Initializing a Moonshine style configuration
>>> configuration = MoonshineConfig().from_pretrained("UsefulSensors/moonshine-tiny")
>>> # Initializing a model from the configuration
>>> model = MoonshineModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
MoonshineModel
class transformers.MoonshineModel
< 来源 >( config: MoonshineConfig )
参数
- config (MoonshineConfig) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。
基础的 Moonshine 模型,输出原始的隐藏状态,顶部没有任何特定的头。
该模型继承自 PreTrainedModel。请查阅超类文档以了解该库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头等)。
该模型也是一个 PyTorch torch.nn.Module 子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。
forward
< 来源 >( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)
参数
- input_values (
torch.FloatTensor
,形状为(batch_size, audio_length)
) — 原始语音波形的浮点值。原始语音波形可以通过将.flac
或.wav
音频文件加载到list[float]
类型的数组或numpy.ndarray
中获得,例如通过 soundfile 库(pip install soundfile
)。为了将数组准备成input_values
,应使用 AutoFeatureExtractor 进行填充并转换为torch.FloatTensor
类型的张量。 - attention_mask (
torch.LongTensor
,形状为(batch_size, sequence_length)
, 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值在[0, 1]
中选择:- 1 表示词元未被掩码,
- 0 表示词元已被掩码。
- decoder_input_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列词元的索引。如果您提供填充,默认情况下将被忽略。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- decoder_attention_mask (
torch.Tensor
,形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意力计算的掩码。掩码值的选择范围是[0, 1]
:- 1 表示标记未被掩码,
- 0 表示标记已被掩码。
索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
如果使用
past_key_values
,可以选择只输入最后的decoder_input_ids
(参见past_key_values
)。如果你想改变填充行为,你应该阅读
modeling_opt._prepare_decoder_attention_mask
并根据你的需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。- 1 表示注意力头未被掩码,
- 0 表示注意力头已被掩码。
- encoder_outputs (
tuple[tuple[torch.FloatTensor]]
, 可选) — 元组,包含 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
)。last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
,可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力机制。 - past_key_values (
Union[~cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType]
) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包含在解码的前一个阶段,当use_cache=True
或config.use_cache=True
时,由模型返回的past_key_values
。允许两种格式:
- 一个 Cache 实例,请参阅我们的 kv 缓存指南;
- 一个长度为
config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量。这也被称为传统缓存格式。
模型将输出与输入相同的缓存格式。如果没有传递
past_key_values
,将返回传统缓存格式。如果使用
past_key_values
,用户可以选择只输入最后的input_ids
(那些没有提供其过去键值状态给此模型的 `input_ids`),形状为(batch_size, 1)
,而不是所有形状为(batch_size, sequence_length)
的input_ids
。 - decoder_inputs_embeds (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递decoder_input_ids
。如果你希望对如何将decoder_input_ids
索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这会非常有用。 - decoder_position_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在[0, config.n_positions - 1]
。 - use_cache (
bool
, 可选) — 如果设置为True
,将返回past_key_values
键值状态,可用于加速解码(参见past_key_values
)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的hidden_states
。 - cache_position (
torch.LongTensor
,形状为(sequence_length)
,可选) — 表示输入序列标记在序列中的位置的索引。与position_ids
相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。
返回
transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),根据配置 (MoonshineConfig) 和输入包含各种元素。
-
last_hidden_state (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
) — 模型解码器最后一层输出的隐藏状态序列。如果使用了
past_key_values
,则只输出形状为(batch_size, 1, hidden_size)
的序列的最后一个隐藏状态。 -
past_key_values (
EncoderDecoderCache
, 可选, 当传递use_cache=True
或config.use_cache=True
时返回) — 这是一个 EncoderDecoderCache 实例。更多细节,请参阅我们的 kv 缓存指南。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。解码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。编码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
MoonshineModel 的前向方法,重写了 __call__
特殊方法。
虽然前向传播的流程需要在此函数中定义,但之后应该调用 Module
实例而不是此函数,因为前者会负责运行预处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> import torch
>>> from transformers import AutoFeatureExtractor, MoonshineModel
>>> from datasets import load_dataset
>>> model = MoonshineModel.from_pretrained("UsefulSensors/moonshine-tiny")
>>> feature_extractor = AutoFeatureExtractor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = feature_extractor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values
>>> decoder_input_ids = torch.tensor([[1, 1]]) * model.config.decoder_start_token_id
>>> last_hidden_state = model(input_values, decoder_input_ids=decoder_input_ids).last_hidden_state
>>> list(last_hidden_state.shape)
[1, 2, 288]
_mask_input_features
< 源代码 >( input_features: FloatTensor attention_mask: typing.Optional[torch.LongTensor] = None )
根据 SpecAugment 沿时间轴和/或特征轴对提取的特征进行掩码。
MoonshineForConditionalGeneration
class transformers.MoonshineForConditionalGeneration
< 源代码 >( config: MoonshineConfig )
参数
- config (MoonshineConfig) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
带有语言模型头的 Moonshine 模型。可用于自动语音识别。
该模型继承自 PreTrainedModel。请查阅超类文档以了解该库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头等)。
该模型也是一个 PyTorch torch.nn.Module 子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。
forward
< 源代码 >( input_values: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Union[transformers.cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType] = None decoder_inputs_embeds: typing.Optional[tuple[torch.FloatTensor]] = None decoder_position_ids: typing.Optional[tuple[torch.LongTensor]] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
参数
- input_values (
torch.FloatTensor
,形状为(batch_size, audio_length)
) — 原始语音波形的浮点数值。可以通过将.flac
或.wav
音频文件加载到list[float]
或numpy.ndarray
类型的数组中来获取原始语音波形,例如通过 soundfile 库(pip install soundfile
)。为了将数组准备成input_values
,应使用 AutoFeatureExtractor 进行填充并转换为torch.FloatTensor
类型的张量。 - attention_mask (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意力计算的掩码。掩码值的选择范围是[0, 1]
:- 1 表示标记未被掩码,
- 0 表示标记已被掩码。
- decoder_input_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。如果你提供了填充,默认情况下将被忽略。索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- decoder_attention_mask (
torch.Tensor
,形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意力计算的掩码。掩码值的选择范围是[0, 1]
:- 1 表示标记未被掩码,
- 0 表示标记已被掩码。
索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
如果使用
past_key_values
,可以选择只输入最后的decoder_input_ids
(参见past_key_values
)。如果你想改变填充行为,你应该阅读
modeling_opt._prepare_decoder_attention_mask
并根据你的需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。- 1 表示注意力头未被掩码,
- 0 表示注意力头已被掩码。
- encoder_outputs (
tuple[tuple[torch.FloatTensor]]
, 可选) — 元组,包含 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
)。last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
,可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力机制。 - past_key_values (
Union[~cache_utils.EncoderDecoderCache, tuple[torch.FloatTensor], NoneType]
) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包含在解码的前一个阶段,当use_cache=True
或config.use_cache=True
时,由模型返回的past_key_values
。允许两种格式:
- 一个 Cache 实例,请参阅我们的 kv 缓存指南;
- 一个长度为
config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量。这也被称为传统缓存格式。
模型将输出与输入相同的缓存格式。如果没有传递
past_key_values
,将返回传统缓存格式。如果使用
past_key_values
,用户可以选择只输入最后的input_ids
(那些没有提供其过去键值状态给此模型的 `input_ids`),形状为(batch_size, 1)
,而不是所有形状为(batch_size, sequence_length)
的input_ids
。 - decoder_inputs_embeds (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递decoder_input_ids
。如果你希望对如何将decoder_input_ids
索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这会非常有用。 - decoder_position_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在[0, config.n_positions - 1]
。 - use_cache (
bool
, 可选) — 如果设置为True
,将返回past_key_values
键值状态,可用于加速解码(参见past_key_values
)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的hidden_states
。 - cache_position (
torch.LongTensor
,形状为(sequence_length)
,可选) — 表示输入序列标记在序列中的位置的索引。与position_ids
相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。 - labels (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 用于计算语言模型损失的标签。索引应在[0, ..., config.vocab_size]
或 -100 之间(参见input_ids
文档字符串)。索引设置为-100
的标记将被忽略(掩码),损失仅对标签在[0, ..., config.vocab_size]
范围内的标记计算。
返回
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),根据配置 (MoonshineConfig) 和输入包含各种元素。
-
loss (
torch.FloatTensor
,形状为(1,)
,可选,当提供labels
时返回) — 语言建模损失。 -
logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
past_key_values (
EncoderDecoderCache
, 可选, 当传递use_cache=True
或config.use_cache=True
时返回) — 这是一个 EncoderDecoderCache 实例。更多细节,请参阅我们的 kv 缓存指南。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
MoonshineForConditionalGeneration 的前向方法,重写了 __call__
特殊方法。
虽然前向传播的流程需要在此函数中定义,但之后应该调用 Module
实例而不是此函数,因为前者会负责运行预处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> import torch
>>> from transformers import AutoProcessor, MoonshineForConditionalGeneration
>>> from datasets import load_dataset
>>> processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-tiny")
>>> model = MoonshineForConditionalGeneration.from_pretrained("UsefulSensors/moonshine-tiny")
>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> inputs = processor(ds[0]["audio"]["array"], return_tensors="pt")
>>> input_values = inputs.input_values
>>> generated_ids = model.generate(input_values, max_new_tokens=100)
>>> transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> transcription
'Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.'
生成
< 源代码 >( inputs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None prefix_allowed_tokens_fn: typing.Optional[typing.Callable[[int, torch.Tensor], list[int]]] = None synced_gpus: typing.Optional[bool] = None assistant_model: typing.Optional[ForwardRef('PreTrainedModel')] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None negative_prompt_ids: typing.Optional[torch.Tensor] = None negative_prompt_attention_mask: typing.Optional[torch.Tensor] = None use_model_defaults: typing.Optional[bool] = None custom_generate: typing.Optional[str] = None **kwargs ) → ModelOutput 或 torch.LongTensor
参数
- inputs (
torch.Tensor
,形状因模态而异,可选) — 用作生成提示或编码器模型输入的序列。如果为None
,该方法会用bos_token_id
和批大小为 1 来初始化它。对于仅解码器模型,inputs
应为input_ids
格式。对于编码器-解码器模型,inputs 可以表示input_ids
、input_values
、input_features
或pixel_values
中的任何一种。 - generation_config (GenerationConfig, 可选) — 用于生成调用的基础参数化的生成配置。传递给 generate 的与
generation_config
属性匹配的**kwargs
将覆盖它们。如果未提供generation_config
,将使用默认配置,其加载优先级如下:1) 从generation_config.json
模型文件(如果存在);2) 从模型配置。请注意,未指定的参数将继承 GenerationConfig 的默认值,应查阅其文档以参数化生成过程。 - logits_processor (
LogitsProcessorList
, 可选) — 自定义 logits 处理器,补充从参数和生成配置中构建的默认 logits 处理器。如果传递的 logit 处理器已经通过参数或生成配置创建,则会抛出错误。此功能适用于高级用户。 - stopping_criteria (
StoppingCriteriaList
, 可选) — 自定义停止标准,补充从参数和生成配置中构建的默认停止标准。如果传递的停止标准已经通过参数或生成配置创建,则会抛出错误。如果你的停止标准依赖于scores
输入,请确保向generate
传递return_dict_in_generate=True, output_scores=True
。此功能适用于高级用户。 - prefix_allowed_tokens_fn (
Callable[[int, torch.Tensor], list[int]]
, 可选) — 如果提供,此函数将在每一步将束搜索限制为仅允许的标记。如果未提供,则不应用任何约束。此函数接受 2 个参数:批次 IDbatch_id
和input_ids
。它必须返回一个列表,其中包含根据批次 IDbatch_id
和先前生成的标记inputs_ids
条件下的下一个生成步骤允许的标记。此参数对于基于前缀的约束生成非常有用,如 Autoregressive Entity Retrieval 中所述。 - synced_gpus (
bool
, 可选) — 是否继续运行 while 循环直到达到 max_length。除非被覆盖,否则在使用具有多个 GPU 的FullyShardedDataParallel
或 DeepSpeed ZeRO Stage 3 时,此标志将设置为True
,以避免在一个 GPU 完成生成而其他 GPU 未完成时发生死锁。否则,默认为False
。 - assistant_model (
PreTrainedModel
, 可选) — 可用于加速生成的辅助模型。辅助模型必须具有完全相同的分词器。当使用辅助模型预测候选标记比使用你正在调用 generate 的模型进行生成快得多时,可以实现加速。因此,辅助模型应该小得多。 - streamer (
BaseStreamer
, 可选) — 用于流式传输生成序列的 Streamer 对象。生成的标记通过streamer.put(token_ids)
传递,streamer 负责任何进一步的处理。 - negative_prompt_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 某些处理器(如 CFG)所需的负面提示。批次大小必须与输入批次大小匹配。这是一个实验性功能,未来版本中可能会有破坏性的 API 变更。 - negative_prompt_attention_mask (
torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) —negative_prompt_ids
的注意力掩码。 - use_model_defaults (
bool
, 可选) — 当为True
时,generation_config
中未设置的参数将被设置为模型特定的默认生成配置 (model.generation_config
),而不是全局默认值 (GenerationConfig()
)。如果未设置,从v4.50
开始保存的模型将认为此标志为True
。 - custom_generate (
str
, 可选) — 包含 huggingface.co 仓库名称的字符串。如果提供,将执行该仓库的custom_generate/generate.py
文件中定义的自定义generate
函数,而不是标准的generate
方法。请注意,生成逻辑完全在该仓库中定义,返回类型可能与标准的generate
方法不同。 - kwargs (
dict[str, Any]
, 可选) —generation_config
的临时参数化和/或将转发到模型forward
函数的其他模型特定 kwargs。如果模型是编码器-解码器模型,编码器特定的 kwargs 不应有前缀,解码器特定的 kwargs 应以 decoder_ 为前缀。
返回
ModelOutput 或 torch.LongTensor
一个 ModelOutput(如果 return_dict_in_generate=True
或 config.return_dict_in_generate=True
)或一个 torch.LongTensor
。
如果模型不是编码器-解码器模型(model.config.is_encoder_decoder=False
),则可能的 ModelOutput 类型为
如果模型是编码器-解码器模型(model.config.is_encoder_decoder=True
),则可能的 ModelOutput 类型为
为具有语言建模头的模型生成词元 ID 序列。
大多数控制生成的参数都在 generation_config
中设置,如果未传递,将设置为模型的默认生成配置。你可以通过将相应参数传递给 generate() 来覆盖任何 generation_config
,例如 .generate(inputs, num_beams=4, do_sample=True)
。
有关生成策略和代码示例的概述,请查阅以下指南。