MusicGen
概述
MusicGen 模型在 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi 和 Alexandre Défossez 撰写的论文 简单且可控的音乐生成 中提出。
MusicGen 是一种单阶段自回归 Transformer 模型,能够生成高质量的音乐样本,这些样本以文本描述或音频提示为条件。文本描述通过一个冻结的文本编码器模型进行传递,以获得一系列隐藏状态表示。然后训练 MusicGen 来预测离散音频令牌或音频代码,这些代码以这些隐藏状态为条件。然后使用音频压缩模型(例如 EnCodec)对这些音频令牌进行解码,以恢复音频波形。
通过有效的令牌交错模式,MusicGen 不需要文本/音频提示的自监督语义表示,从而无需级联多个模型来预测一组码本(例如,分层或上采样)。相反,它能够在单次前向传递中生成所有码本。
论文中的摘要如下
我们处理条件音乐生成的任务。我们介绍了 MusicGen,这是一个在多个压缩离散音乐表示流(即令牌)上运行的单一语言模型 (LM)。与之前的工作不同,MusicGen 由一个单阶段 Transformer LM 以及有效的令牌交错模式组成,这消除了级联多个模型的需要,例如分层或上采样。遵循这种方法,我们证明了 MusicGen 如何生成高质量的样本,同时以文本描述或旋律特征为条件,从而可以更好地控制生成的输出。我们进行了广泛的经验评估,包括自动和人工研究,结果表明,在标准的文本到音乐基准测试中,所提出的方法优于评估的基线。通过消融研究,我们阐明了组成 MusicGen 的每个组件的重要性。
该模型由 sanchit-gandhi 贡献。原始代码可在 此处 找到。预训练的检查点可以在 Hugging Face Hub 上找到。
使用技巧
- 从 此处 下载原始检查点后,您可以使用
src/transformers/models/musicgen/convert_musicgen_transformers.py
中提供的转换脚本使用以下命令进行转换。
python src/transformers/models/musicgen/convert_musicgen_transformers.py \ --checkpoint small --pytorch_dump_folder /output/path --safe_serialization
生成
MusicGen 支持两种生成模式:贪婪和采样。在实践中,采样比贪婪生成明显更好的结果,因此我们鼓励在可能的情况下使用采样模式。采样默认启用,可以通过在调用 MusicgenForConditionalGeneration.generate()
时设置 do_sample=True
显式指定,或者通过覆盖模型的生成配置(见下文)。
生成受正弦位置嵌入的限制,输入最多 30 秒。这意味着 MusicGen 无法生成超过 30 秒的音频(1503 个 token),并且由音频提示生成传递的输入音频会影响此限制,因此,如果给定 20 秒的输入音频,MusicGen 无法生成超过 10 秒的附加音频。
Transformers 支持 MusicGen 的单声道(1 通道)和立体声(2 通道)变体。单声道版本生成一组 codebook。立体声版本生成 2 组 codebook,每通道(左/右)一组,每组 codebook 通过音频压缩模型独立解码。每个通道的音频流组合在一起,形成最终的立体声输出。
无条件生成
无条件(或“空”)生成的输入可以通过 MusicgenForConditionalGeneration.get_unconditional_inputs()
方法获取。
>>> from transformers import MusicgenForConditionalGeneration
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> unconditional_inputs = model.get_unconditional_inputs(num_samples=1)
>>> audio_values = model.generate(**unconditional_inputs, do_sample=True, max_new_tokens=256)
音频输出是一个形状为 (batch_size, num_channels, sequence_length)
的三维 Torch 张量。要收听生成的音频样本,可以在 ipynb 笔记本中播放它们。
from IPython.display import Audio
sampling_rate = model.config.audio_encoder.sampling_rate
Audio(audio_values[0].numpy(), rate=sampling_rate)
或者使用第三方库(例如 scipy
)将它们保存为 .wav
文件。
>>> import scipy
>>> sampling_rate = model.config.audio_encoder.sampling_rate
>>> scipy.io.wavfile.write("musicgen_out.wav", rate=sampling_rate, data=audio_values[0, 0].numpy())
文本条件生成
该模型可以使用 MusicgenProcessor 预处理输入,生成以文本提示为条件的音频样本。
>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> inputs = processor(
... text=["80s pop track with bassy drums and synth", "90s rock song with loud guitars and heavy drums"],
... padding=True,
... return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)
guidance_scale
用于无分类器引导(CFG),设置条件 logits(由文本提示预测)和无条件 logits(由无条件或“空”提示预测)之间的权重。较高的引导尺度鼓励模型生成与输入提示更紧密相关的样本,通常以牺牲音频质量为代价。通过设置 guidance_scale > 1
启用 CFG。为了获得最佳效果,请使用 guidance_scale=3
(默认)。
音频提示生成
相同的 MusicgenProcessor 可用于预处理用于音频延续的音频提示。在以下示例中,我们使用 🤗 Datasets 库加载音频文件,该库可以通过以下命令进行 pip 安装。
pip install --upgrade pip pip install datasets[audio]
>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> from datasets import load_dataset
>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> dataset = load_dataset("sanchit-gandhi/gtzan", split="train", streaming=True)
>>> sample = next(iter(dataset))["audio"]
>>> # take the first half of the audio sample
>>> sample["array"] = sample["array"][: len(sample["array"]) // 2]
>>> inputs = processor(
... audio=sample["array"],
... sampling_rate=sample["sampling_rate"],
... text=["80s blues track with groovy saxophone"],
... padding=True,
... return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)
对于批处理音频提示生成,可以使用 MusicgenProcessor 类对生成的 audio_values
进行后处理以删除填充。
>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> from datasets import load_dataset
>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> dataset = load_dataset("sanchit-gandhi/gtzan", split="train", streaming=True)
>>> sample = next(iter(dataset))["audio"]
>>> # take the first quarter of the audio sample
>>> sample_1 = sample["array"][: len(sample["array"]) // 4]
>>> # take the first half of the audio sample
>>> sample_2 = sample["array"][: len(sample["array"]) // 2]
>>> inputs = processor(
... audio=[sample_1, sample_2],
... sampling_rate=sample["sampling_rate"],
... text=["80s blues track with groovy saxophone", "90s rock song with loud guitars and heavy drums"],
... padding=True,
... return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)
>>> # post-process to remove padding from the batched audio
>>> audio_values = processor.batch_decode(audio_values, padding_mask=inputs.padding_mask)
生成配置
控制生成过程的默认参数(例如采样、引导尺度和生成的 token 数量)可以在模型的生成配置中找到,并根据需要更新。
>>> from transformers import MusicgenForConditionalGeneration
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> # inspect the default generation config
>>> model.generation_config
>>> # increase the guidance scale to 4.0
>>> model.generation_config.guidance_scale = 4.0
>>> # decrease the max length to 256 tokens
>>> model.generation_config.max_length = 256
请注意,传递给生成方法的任何参数都将**覆盖**生成配置中的参数,因此在生成调用中设置 do_sample=False
将覆盖生成配置中 model.generation_config.do_sample
的设置。
模型结构
MusicGen 模型可以分解为三个不同的阶段。
- 文本编码器:将文本输入映射到隐藏状态表示的序列。预训练的 MusicGen 模型使用来自 T5 或 Flan-T5 的冻结文本编码器。
- MusicGen 解码器:一个语言模型 (LM),它根据编码器隐藏状态表示自回归地生成音频 token(或代码)。
- 音频编码器/解码器:用于编码音频提示以用作提示 token,并从解码器预测的音频 token 中恢复音频波形。
因此,MusicGen 模型可以作为独立的解码器模型使用,对应于类 MusicgenForCausalLM,或者作为包含文本编码器和音频编码器/解码器的复合模型使用,对应于类 MusicgenForConditionalGeneration。如果只需要从预训练的检查点加载解码器,则可以通过首先指定正确的配置来加载它,或者通过复合模型的 .decoder
属性访问它。
>>> from transformers import AutoConfig, MusicgenForCausalLM, MusicgenForConditionalGeneration
>>> # Option 1: get decoder config and pass to `.from_pretrained`
>>> decoder_config = AutoConfig.from_pretrained("facebook/musicgen-small").decoder
>>> decoder = MusicgenForCausalLM.from_pretrained("facebook/musicgen-small", **decoder_config)
>>> # Option 2: load the entire composite model, but only return the decoder
>>> decoder = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small").decoder
由于文本编码器和音频编码器/解码器模型在训练期间是冻结的,因此 MusicGen 解码器 MusicgenForCausalLM 可以单独在编码器隐藏状态和音频代码的数据集上进行训练。在推理过程中,训练好的解码器可以与冻结的文本编码器和音频编码器/解码器组合在一起,以恢复复合的 MusicgenForConditionalGeneration 模型。
提示
- MusicGen 在 Encodec 的 32kHz 检查点上进行了训练。您应该确保使用兼容版本的 Encodec 模型。
- 采样模式往往比贪婪模式产生更好的结果 - 您可以在调用
MusicgenForConditionalGeneration.generate()
时使用变量do_sample
切换采样。
MusicgenDecoderConfig
class transformers.MusicgenDecoderConfig
< 源代码 >( vocab_size = 2048 max_position_embeddings = 2048 num_hidden_layers = 24 ffn_dim = 4096 num_attention_heads = 16 layerdrop = 0.0 use_cache = True activation_function = 'gelu' hidden_size = 1024 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 initializer_factor = 0.02 scale_embedding = False num_codebooks = 4 audio_channels = 1 pad_token_id = 2048 bos_token_id = 2048 eos_token_id = None tie_word_embeddings = False **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 2048) — MusicgenDecoder 模型的词典大小。 定义了调用MusicgenDecoder
时传入的inputs_ids
可以表示的不同标记数量。 - hidden_size (
int
, 可选, 默认为 1024) — 层和池化层的大小。 - num_hidden_layers (
int
, 可选, 默认为 24) — 解码器层数。 - num_attention_heads (
int
, 可选, 默认为 16) — Transformer 块中每个注意力层的注意力头数。 - ffn_dim (
int
, 可选, 默认为 4096) — Transformer 块中“中间”层(通常称为前馈层)的大小。 - activation_function (
str
或function
, 可选, 默认为"gelu"
) — 解码器和池化层中的非线性激活函数(函数或字符串)。 如果是字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - dropout (
float
, 可选, 默认为 0.1) — 嵌入、文本编码器和池化层中所有全连接层的 dropout 概率。 - attention_dropout (
float
, 可选, 默认为 0.0) — 注意力概率的 dropout 比例。 - activation_dropout (
float
, 可选, 默认值 0.0) — 全连接层中激活的丢弃率。 - max_position_embeddings (
int
, 可选, 默认值 2048) — 此模型可能使用的最大序列长度。 通常,将此值设置为足够大的值,以防万一 (例如,512 或 1024 或 2048)。 - initializer_factor (
float
, 可选, 默认值 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。 - layerdrop (
float
, 可选, 默认值 0.0) — 解码器的 LayerDrop 概率。 有关更多详细信息,请参阅 [LayerDrop 论文](参见 https://arxiv.org/abs/1909.11556)。 - scale_embedding (
bool
, 可选, 默认值False
) — 通过除以 sqrt(hidden_size) 来缩放嵌入。 - use_cache (
bool
, 可选, 默认值True
) — 模型是否应返回最后键值注意力 (并非所有模型都使用此功能) - num_codebooks (
int
, 可选, 默认值 4) — 传递到模型的并行码本数量。 - tie_word_embeddings(
bool
, 可选, 默认值False
) — 输入和输出词嵌入是否应绑定。 - audio_channels (
int
, 可选, 默认值 1 — 音频数据中的通道数量。 1 表示单声道,2 表示立体声。 立体声模型为左右声道输出生成单独的音频流。 单声道模型生成单个音频流输出。
这是一个配置类,用于存储 MusicgenDecoder
的配置。 它用于根据指定的参数实例化一个 MusicGen 解码器,定义模型架构。 使用默认值实例化配置将产生与 MusicGen facebook/musicgen-small 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。 阅读 PretrainedConfig 中的文档,了解更多信息。
MusicgenConfig
这是用于存储 MusicgenModel 配置的配置类。它用于根据指定的参数实例化一个 MusicGen 模型,定义文本编码器、音频编码器和 MusicGen 解码器配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。 阅读 PretrainedConfig 中的文档,了解更多信息。
示例
>>> from transformers import (
... MusicgenConfig,
... MusicgenDecoderConfig,
... T5Config,
... EncodecConfig,
... MusicgenForConditionalGeneration,
... )
>>> # Initializing text encoder, audio encoder, and decoder model configurations
>>> text_encoder_config = T5Config()
>>> audio_encoder_config = EncodecConfig()
>>> decoder_config = MusicgenDecoderConfig()
>>> configuration = MusicgenConfig.from_sub_models_config(
... text_encoder_config, audio_encoder_config, decoder_config
... )
>>> # Initializing a MusicgenForConditionalGeneration (with random weights) from the facebook/musicgen-small style configuration
>>> model = MusicgenForConditionalGeneration(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
>>> config_text_encoder = model.config.text_encoder
>>> config_audio_encoder = model.config.audio_encoder
>>> config_decoder = model.config.decoder
>>> # Saving the model, including its configuration
>>> model.save_pretrained("musicgen-model")
>>> # loading model and config from pretrained folder
>>> musicgen_config = MusicgenConfig.from_pretrained("musicgen-model")
>>> model = MusicgenForConditionalGeneration.from_pretrained("musicgen-model", config=musicgen_config)
from_sub_models_config
< 源代码 > ( text_encoder_config: PretrainedConfig audio_encoder_config: PretrainedConfig decoder_config: MusicgenDecoderConfig **kwargs ) → MusicgenConfig
从文本编码器、音频编码器和解码器配置实例化一个 MusicgenConfig(或派生类)。
MusicgenProcessor
class transformers.MusicgenProcessor
< 源代码 >( feature_extractor tokenizer )
参数
- feature_extractor (
EncodecFeatureExtractor
) — EncodecFeatureExtractor 的实例。特征提取器是必需的输入。 - tokenizer (
T5Tokenizer
) — T5Tokenizer 的实例。分词器是必需的输入。
构造一个 MusicGen 处理器,它将 EnCodec 特征提取器和 T5 分词器封装到一个单独的处理器类中。
MusicgenProcessor 提供了 EncodecFeatureExtractor 和 TTokenizer
的所有功能。有关更多信息,请参阅 __call__()
和 decode()。
此方法用于解码 Musicgen 模型的音频输出批次,或解码分词器的 token ID 批次。在解码 token ID 的情况下,此方法将其所有参数转发到 T5Tokenizer 的 batch_decode()。有关更多信息,请参阅此方法的文档字符串。
MusicgenModel
class transformers.MusicgenModel
< source >( config: MusicgenDecoderConfig )
参数
- config (MusicgenConfig) — 模型配置类,包含模型的所有参数。 用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法来加载模型权重。
不带任何特定头的 Musicgen 解码器模型,输出原始隐藏状态。
Musicgen 模型在 Simple and Controllable Music Generation 中由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi 和 Alexandre Défossez 提出。 它是一个编码器 - 解码器 Transformer,在条件音乐生成任务上进行训练。
此模型继承自 PreTrainedModel。 查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头等)。
此模型也是一个 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: LongTensor = None attention_mask: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None head_mask: Optional = None cross_attn_head_mask: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )
参数
- input_ids (
torch.LongTensor
of shape(batch_size * num_codebooks, sequence_length)
) — 输入序列标记在词汇表中的索引,对应于音频代码序列。索引可以通过使用音频编码器模型对音频提示进行编码来获得,以预测音频代码,例如使用 EncodecModel。 有关详细信息,请参阅 EncodecModel.encode()。
input_ids
将在 forward pass 中自动从形状(batch_size * num_codebooks, target_sequence_length)
转换为(batch_size, num_codebooks, target_sequence_length)
。 如果你从音频编码模型(如 EncodecModel)获取音频代码,请确保帧数等于 1,并且在将它们传递为input_ids
之前,将音频代码从(frames, batch_size, num_codebooks, target_sequence_length)
重塑为(batch_size * num_codebooks, target_sequence_length)
。 - attention_mask (
torch.Tensor
of shape(batch_size, sequence_length)
, optional) — 掩码,用于避免对填充标记索引执行注意力。 掩码值在[0, 1]
中选择:- 1 代表未被掩码的标记
- 0 代表被掩码的标记
- encoder_hidden_states (
torch.FloatTensor
of shape(batch_size, encoder_sequence_length, hidden_size)
, optional) — 编码器最后一层输出的隐藏状态序列。 用于解码器的交叉注意力。 - encoder_attention_mask (
torch.LongTensor
形状为(batch_size, encoder_sequence_length)
, 可选) — 掩码以避免对编码器输入 ID 的填充标记索引执行交叉注意力。 掩码值在[0, 1]
中选择:- 1 表示未掩码的标记,
- 0 表示掩码的标记。
- head_mask (
torch.Tensor
形状为(decoder_layers, decoder_attention_heads)
, 可选) — 掩码以使注意力模块的选定头部无效。 掩码值在[0, 1]
中选择:- 1 表示未掩码的头部,
- 0 表示掩码的头部。
- cross_attn_head_mask (
torch.Tensor
形状为(decoder_layers, decoder_attention_heads)
, 可选) — 掩码以使解码器中交叉注意力模块的选定头部无效,以避免对隐藏头部执行交叉注意力。 掩码值在[0, 1]
中选择:- 1 表示未掩码的头部,
- 0 表示掩码的头部。
- past_key_values (
tuple(tuple(torch.FloatTensor))
, 可选,在传递use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(tuple(torch.FloatTensor))
,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(见
past_key_values
输入)加快顺序解码。如果使用
past_key_values
,用户可以选择仅输入形状为(batch_size, 1)
的最后一个decoder_input_ids
(这些 ID 没有提供其过去的键值状态给此模型)而不是形状为(batch_size, sequence_length)
的所有decoder_input_ids
。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,而不是传递input_ids
,您可以选择直接传递嵌入表示。 如果您想比模型的内部嵌入查找矩阵对如何将input_ids
索引转换为关联向量有更多控制,这将很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
该 MusicgenModel 正向方法覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数中定义,但应随后调用 Module
实例而不是此实例,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
MusicgenForCausalLM
class transformers.MusicgenForCausalLM
( config: MusicgenDecoderConfig )参数
- config (MusicgenConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法以加载模型权重。
带有语言建模头的 MusicGen 解码器模型。
Musicgen 模型在 Simple and Controllable Music Generation 中由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi 和 Alexandre Défossez 提出。 它是一个编码器 - 解码器 Transformer,在条件音乐生成任务上进行训练。
此模型继承自 PreTrainedModel。 查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头等)。
此模型也是一个 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: LongTensor = None attention_mask: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None head_mask: Optional = None cross_attn_head_mask: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size * num_codebooks, sequence_length)
) — 词汇表中输入序列标记的索引,对应于音频代码序列。索引可以通过使用音频编码器模型对音频提示进行编码来获取,以预测音频代码,例如使用 EncodecModel。 有关详细信息,请参见 EncodecModel.encode()。
在正向传递中,
input_ids
将自动从形状(batch_size * num_codebooks, target_sequence_length)
转换为(batch_size, num_codebooks, target_sequence_length)
。 如果你从音频编码模型(例如 EncodecModel)获得音频代码,请确保帧数等于 1,并且在将音频代码作为input_ids
传递之前,将其从(frames, batch_size, num_codebooks, target_sequence_length)
重塑为(batch_size * num_codebooks, target_sequence_length)
。 - attention_mask (
torch.Tensor
形状为(batch_size, sequence_length)
,可选) — 掩码,用于避免对填充标记索引执行注意力操作。 掩码值在[0, 1]
中选择:- 1 表示未掩码的标记。
- 0 表示掩码的标记。
- encoder_hidden_states (
torch.FloatTensor
形状为(batch_size, encoder_sequence_length, hidden_size)
,可选) — 编码器最后一层输出的隐藏状态序列。 在解码器的交叉注意力中使用。 - encoder_attention_mask (
torch.LongTensor
形状为(batch_size, encoder_sequence_length)
,可选) — 掩码,用于避免对编码器输入 ID 的填充标记索引执行交叉注意力。 掩码值在[0, 1]
中选择:- 1 表示未掩码的标记。
- 0 表示掩码的标记。
- head_mask (
torch.Tensor
形状为(decoder_layers, decoder_attention_heads)
,可选) — 掩码,用于使注意力模块的选定头部无效。 掩码值在[0, 1]
中选择:- 1 表示未掩码的头部。
- 0 表示掩码的头部。
- cross_attn_head_mask (
torch.Tensor
形状为(decoder_layers, decoder_attention_heads)
,可选) — 用于使解码器中交叉注意力模块的选定头部无效的掩码,以避免对隐藏头部执行交叉注意力。掩码值在[0, 1]
中选择:- 1 表示头部未被掩码
- 0 表示头部被掩码
- past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,在传递use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的额外张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),这些状态可用于(参见
past_key_values
输入)加快顺序解码。如果使用
past_key_values
,用户可以选择仅输入形状为(batch_size, 1)
的最后一个decoder_input_ids
(那些没有提供其过去键值状态的输入),而不是输入形状为(batch_size, sequence_length)
的所有decoder_input_ids
。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想对如何将input_ids
索引转换为关联向量进行更多控制,这将很有用,而不是模型的内部嵌入查找矩阵。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。 - labels (
torch.LongTensor
形状为(batch_size, sequence_length, num_codebooks)
,可选) — 用于语言建模的标签。请注意,标签在模型内部已移位,即您可以设置labels = input_ids
索引在[-100, 0, ..., config.vocab_size]
中选择。所有设置为-100
的标签将被忽略(掩码),损失仅针对[0, ..., config.vocab_size]
中的标签计算。
返回值
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqLMOutput 或 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),包含取决于配置 (MusicgenConfig) 和输入的各种元素。
-
loss (
torch.FloatTensor
形状为(1,)
,可选,在提供labels
时返回) — 语言建模损失。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,在传递use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的额外张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),这些状态可用于(参见
past_key_values
输入)加快顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,再加上每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。每个层的输出处的解码器的隐藏状态加上初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 SoftMax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 SoftMax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 模型编码器最后一层的输出处的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,再加上每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。每个层的输出处的编码器的隐藏状态加上初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器中的注意力权重,在注意力 Softmax 之后使用,用于计算自注意力头中的加权平均值。
MusicgenForCausalLM 的前向方法覆盖了 __call__
特殊方法。
尽管正向传递的配方需要在此函数中定义,但应随后调用 Module
实例而不是此实例,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
MusicgenForConditionalGeneration
class transformers.MusicgenForConditionalGeneration
< source >( config: Optional = None text_encoder: Optional = None audio_encoder: Optional = None decoder: Optional = None )
参数
- config (MusicgenConfig) — 模型配置类,包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法加载模型权重。
带文本编码器、音频编码器和 Musicgen 解码器的复合 Musicgen 模型,用于使用文本和/或音频提示的音乐生成任务。
Musicgen 模型在 Simple and Controllable Music Generation 中由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi 和 Alexandre Défossez 提出。 它是一个编码器 - 解码器 Transformer,在条件音乐生成任务上进行训练。
此模型继承自 PreTrainedModel。 查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头等)。
此模型也是一个 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般使用和行为的所有事项。
forward
< source > ( input_ids: Optional = None attention_mask: Optional = None input_values: Optional = None padding_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None encoder_outputs: Optional = None past_key_values: Tuple = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None **kwargs ) → transformers.modeling_outputs.Seq2SeqLMOutput or tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列标记在词汇表中的索引。如果您提供填充,默认情况下将忽略填充。可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 获取详细信息。
- attention_mask (
torch.Tensor
形状为(batch_size, sequence_length)
, 可选) — 掩码以避免对填充标记索引执行注意力。在[0, 1]
中选择的掩码值:- 1 表示未掩码的标记,
- 0 表示掩码的标记。
- decoder_input_ids (
torch.LongTensor
形状为(batch_size * num_codebooks, target_sequence_length)
, 可选) — 解码器输入序列标记在词汇表中的索引,对应于音频代码序列。可以使用音频编码器模型对音频提示进行编码来预测音频代码,例如使用 EncodecModel 获取索引。查看 EncodecModel.encode() 获取详细信息。
在正向传递过程中,
decoder_input_ids
将自动从形状(batch_size * num_codebooks, target_sequence_length)
转换为(batch_size, num_codebooks, target_sequence_length)
。如果您从音频编码模型(例如 EncodecModel)获取音频代码,请确保帧数等于 1,并且在将它们作为decoder_input_ids
传递之前,将音频代码从(frames, batch_size, num_codebooks, target_sequence_length)
重塑为(batch_size * num_codebooks, target_sequence_length)
。 - decoder_attention_mask (
torch.LongTensor
形状为(batch_size, target_sequence_length)
, 可选) — 默认行为:生成一个张量,忽略decoder_input_ids
中的填充标记。因果掩码也将默认使用。 - head_mask (
torch.Tensor
形状为(encoder_layers, encoder_attention_heads)
, 可选) — 掩码,用于使编码器中注意力模块的选定头无效。掩码值选择在[0, 1]
中:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- decoder_head_mask (
torch.Tensor
形状为(decoder_layers, decoder_attention_heads)
, 可选) — 掩码,用于使解码器中注意力模块的选定头无效。掩码值选择在[0, 1]
中:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- cross_attn_head_mask (
torch.Tensor
形状为(decoder_layers, decoder_attention_heads)
, 可选) — 掩码,用于使解码器中交叉注意力模块的选定头无效。掩码值选择在[0, 1]
中:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, 可选) — 元组包含 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
)last_hidden_state
形状为(batch_size, sequence_length, hidden_size)
, 可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - past_key_values (
tuple(tuple(torch.FloatTensor))
, 可选,在传递use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(tuple(torch.FloatTensor))
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量)和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),这些隐藏状态可以用于(参见
past_key_values
输入)加快顺序解码。如果使用
past_key_values
,用户可以选择仅输入最后一个decoder_input_ids
(那些没有将其过去的键值状态提供给此模型的输入)形状为(batch_size, 1)
,而不是所有decoder_input_ids
形状为(batch_size, sequence_length)
。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,除了传递input_ids
之外,您可以选择直接传递嵌入表示。如果您想更精确地控制如何将input_ids
索引转换为关联的向量,而不是模型的内部嵌入查找矩阵,这将很有用。 - decoder_inputs_embeds (
torch.FloatTensor
形状为(batch_size, target_sequence_length, hidden_size)
, 可选) — 可选地,除了传递decoder_input_ids
之外,您可以选择直接传递嵌入表示。如果使用past_key_values
,可以选择仅输入最后一个decoder_inputs_embeds
(参见past_key_values
)。如果您想更精确地控制如何将decoder_input_ids
索引转换为关联的向量,而不是模型的内部嵌入查找矩阵,这将很有用。如果
decoder_input_ids
和decoder_inputs_embeds
都未设置,则decoder_inputs_embeds
将采用inputs_embeds
的值。 - labels (
torch.LongTensor
形状为(batch_size, sequence_length, num_codebooks)
, 可选) — 用于语言建模的标签。请注意,标签在模型内部被移位,即您可以设置labels = input_ids
。索引选择在[-100, 0, ..., config.vocab_size]
中。所有设置为-100
的标签都将被忽略(掩盖),损失仅针对[0, ..., config.vocab_size]
中的标签计算。 - use_cache (
bool
, 可选) — 如果设置为True
,则会返回past_key_values
键值状态,可用于加速解码(请参阅past_key_values
)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回值
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqLMOutput 或 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),包含取决于配置 (MusicgenConfig) 和输入的各种元素。
-
loss (
torch.FloatTensor
形状为(1,)
,可选,在提供labels
时返回) — 语言建模损失。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,在传递use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的额外张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),这些状态可用于(参见
past_key_values
输入)加快顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,再加上每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。每个层的输出处的解码器的隐藏状态加上初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 SoftMax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 SoftMax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 模型编码器最后一层的输出处的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,再加上每个层的输出),形状为(batch_size, sequence_length, hidden_size)
。每个层的输出处的编码器的隐藏状态加上初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器中的注意力权重,在注意力 Softmax 之后使用,用于计算自注意力头中的加权平均值。
The MusicgenForConditionalGeneration forward method, overrides the __call__
special method.
尽管正向传递的配方需要在此函数中定义,但应随后调用 Module
实例而不是此实例,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
Examples
>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> import torch
>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> inputs = processor(
... text=["80s pop track with bassy drums and synth", "90s rock song with loud guitars and heavy drums"],
... padding=True,
... return_tensors="pt",
... )
>>> pad_token_id = model.generation_config.pad_token_id
>>> decoder_input_ids = (
... torch.ones((inputs.input_ids.shape[0] * model.decoder.num_codebooks, 1), dtype=torch.long)
... * pad_token_id
... )
>>> logits = model(**inputs, decoder_input_ids=decoder_input_ids).logits
>>> logits.shape # (bsz * num_codebooks, tgt_len, vocab_size)
torch.Size([8, 1, 2048])