Transformers 文档

MusicGen

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

MusicGen

PyTorch FlashAttention SDPA

概述

MusicGen 模型在论文 Simple and Controllable Music Generation 中被提出,作者是 Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi 和 Alexandre Défossez。

MusicGen 是一个单阶段自回归 Transformer 模型,能够生成高质量的音乐样本,并以文本描述或音频提示作为条件。文本描述通过一个冻结的文本编码器模型传递,以获得隐藏状态表示序列。然后,MusicGen 被训练来预测离散的音频 tokens,或音频代码,以这些隐藏状态为条件。这些音频 tokens 随后使用音频压缩模型(如 Encodec)进行解码,以恢复音频波形。

通过高效的 token 交错模式,MusicGen 不需要文本/音频提示的自监督语义表示,从而消除了级联多个模型来预测代码本集合(例如,分层或上采样)的需求。相反,它能够在单个前向传递中生成所有代码本。

该论文的摘要如下:

我们解决了条件音乐生成任务。我们介绍了 MusicGen,这是一个在压缩离散音乐表示(即 tokens)的多个流上运行的单个语言模型(LM)。与先前的工作不同,MusicGen 由单阶段 transformer LM 以及高效的 token 交错模式组成,这消除了级联多个模型的需求,例如分层或上采样。遵循这种方法,我们展示了 MusicGen 如何生成高质量的样本,同时以文本描述或旋律特征为条件,从而可以更好地控制生成的输出。我们进行了广泛的实证评估,考虑了自动和人工研究,表明所提出的方法在标准文本到音乐基准测试中优于评估的基线。通过消融研究,我们阐明了组成 MusicGen 的每个组件的重要性。

此模型由 sanchit-gandhi 贡献。原始代码可以在 这里 找到。预训练检查点可以在 Hugging Face Hub 上找到。

使用技巧

  • 这里 下载原始检查点后,您可以使用位于 src/transformers/models/musicgen/convert_musicgen_transformers.py转换脚本通过以下命令转换它们
python src/transformers/models/musicgen/convert_musicgen_transformers.py \
    --checkpoint small --pytorch_dump_folder /output/path --safe_serialization 

生成

MusicGen 兼容两种生成模式:贪婪模式和采样模式。在实践中,采样模式比贪婪模式产生的结果明显更好,因此我们鼓励尽可能使用采样模式。采样模式默认启用,可以通过在调用 MusicgenForConditionalGeneration.generate() 时设置 do_sample=True 或通过覆盖模型的生成配置(见下文)来显式指定。

生成受到正弦位置嵌入的限制,最多为 30 秒的输入。这意味着 MusicGen 不能生成超过 30 秒的音频(1503 个 tokens),并且音频提示生成传递的输入音频也计入此限制,因此,如果给定 20 秒的音频输入,MusicGen 最多只能生成 10 秒的额外音频。

Transformers 支持 MusicGen 的单声道(1 声道)和立体声(2 声道)变体。单声道版本生成一组代码本。立体声版本生成 2 组代码本,每声道 1 组(左/右),并且每组代码本都通过音频压缩模型独立解码。每个声道的音频流被组合以给出最终的立体声输出。

无条件生成

无条件(或“null”)生成的输入可以通过方法 MusicgenForConditionalGeneration.get_unconditional_inputs() 获得

>>> from transformers import MusicgenForConditionalGeneration

>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> unconditional_inputs = model.get_unconditional_inputs(num_samples=1)

>>> audio_values = model.generate(**unconditional_inputs, do_sample=True, max_new_tokens=256)

音频输出是一个三维 Torch 张量,形状为 (batch_size, num_channels, sequence_length)。要收听生成的音频样本,您可以在 ipynb 笔记本中播放它们

from IPython.display import Audio

sampling_rate = model.config.audio_encoder.sampling_rate
Audio(audio_values[0].numpy(), rate=sampling_rate)

或使用第三方库(例如 scipy)将它们保存为 .wav 文件

>>> import scipy

>>> sampling_rate = model.config.audio_encoder.sampling_rate
>>> scipy.io.wavfile.write("musicgen_out.wav", rate=sampling_rate, data=audio_values[0, 0].numpy())

文本条件生成

该模型可以根据文本提示生成音频样本,通过使用 MusicgenProcessor 预处理输入

>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> inputs = processor(
...     text=["80s pop track with bassy drums and synth", "90s rock song with loud guitars and heavy drums"],
...     padding=True,
...     return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

guidance_scale 用于无分类器引导(CFG),设置条件 logits(从文本提示预测)和无条件 logits(从无条件或“null”提示预测)之间的权重。较高的 guidance scale 鼓励模型生成与输入提示更紧密相关的样本,通常以音频质量较差为代价。通过设置 guidance_scale > 1 启用 CFG。为了获得最佳结果,请使用 guidance_scale=3(默认)。

音频提示生成

相同的 MusicgenProcessor 可用于预处理用于音频延续的音频提示。在以下示例中,我们使用 🤗 Datasets 库加载音频文件,该库可以通过以下命令进行 pip 安装

pip install --upgrade pip
pip install datasets[audio]
>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> from datasets import load_dataset

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> dataset = load_dataset("sanchit-gandhi/gtzan", split="train", streaming=True)
>>> sample = next(iter(dataset))["audio"]

>>> # take the first half of the audio sample
>>> sample["array"] = sample["array"][: len(sample["array"]) // 2]

>>> inputs = processor(
...     audio=sample["array"],
...     sampling_rate=sample["sampling_rate"],
...     text=["80s blues track with groovy saxophone"],
...     padding=True,
...     return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

对于批量音频提示生成,可以使用 MusicgenProcessor 类对生成的 audio_values 进行后处理以移除填充

>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> from datasets import load_dataset

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> dataset = load_dataset("sanchit-gandhi/gtzan", split="train", streaming=True)
>>> sample = next(iter(dataset))["audio"]

>>> # take the first quarter of the audio sample
>>> sample_1 = sample["array"][: len(sample["array"]) // 4]

>>> # take the first half of the audio sample
>>> sample_2 = sample["array"][: len(sample["array"]) // 2]

>>> inputs = processor(
...     audio=[sample_1, sample_2],
...     sampling_rate=sample["sampling_rate"],
...     text=["80s blues track with groovy saxophone", "90s rock song with loud guitars and heavy drums"],
...     padding=True,
...     return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

>>> # post-process to remove padding from the batched audio
>>> audio_values = processor.batch_decode(audio_values, padding_mask=inputs.padding_mask)

生成配置

控制生成过程的默认参数,例如采样、引导尺度和生成的 tokens 数量,可以在模型的生成配置中找到,并根据需要进行更新

>>> from transformers import MusicgenForConditionalGeneration

>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> # inspect the default generation config
>>> model.generation_config

>>> # increase the guidance scale to 4.0
>>> model.generation_config.guidance_scale = 4.0

>>> # decrease the max length to 256 tokens
>>> model.generation_config.max_length = 256

请注意,传递给 generate 方法的任何参数都将取代生成配置中的参数,因此在调用 generate 时设置 do_sample=False 将取代生成配置中 model.generation_config.do_sample 的设置。

模型结构

MusicGen 模型可以分解为三个不同的阶段

  1. 文本编码器:将文本输入映射到隐藏状态表示序列。预训练的 MusicGen 模型使用来自 T5 或 Flan-T5 的冻结文本编码器
  2. MusicGen 解码器:一种语言模型(LM),它以自回归方式生成音频 tokens(或代码),以编码器隐藏状态表示为条件
  3. 音频编码器/解码器:用于编码音频提示以用作提示 tokens,并从解码器预测的音频 tokens 中恢复音频波形

因此,MusicGen 模型既可以用作独立的解码器模型,对应于类 MusicgenForCausalLM,也可以用作包含文本编码器和音频编码器/解码器的复合模型,对应于类 MusicgenForConditionalGeneration。如果只需要从预训练检查点加载解码器,则可以首先指定正确的配置来加载它,或者通过复合模型的 .decoder 属性访问它

>>> from transformers import AutoConfig, MusicgenForCausalLM, MusicgenForConditionalGeneration

>>> # Option 1: get decoder config and pass to `.from_pretrained`
>>> decoder_config = AutoConfig.from_pretrained("facebook/musicgen-small").decoder
>>> decoder = MusicgenForCausalLM.from_pretrained("facebook/musicgen-small", **decoder_config)

>>> # Option 2: load the entire composite model, but only return the decoder
>>> decoder = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small").decoder

由于文本编码器和音频编码器/解码器模型在训练期间被冻结,因此 MusicGen 解码器 MusicgenForCausalLM 可以独立于编码器隐藏状态和音频代码的数据集进行训练。对于推理,训练后的解码器可以与冻结的文本编码器和音频编码器/解码器组合,以恢复复合 MusicgenForConditionalGeneration 模型。

提示

  • MusicGen 在 Encodec 的 32kHz 检查点上进行训练。您应确保使用兼容版本的 Encodec 模型。
  • 采样模式往往比贪婪模式产生更好的结果 - 您可以使用调用 MusicgenForConditionalGeneration.generate() 中的变量 do_sample 切换采样模式

MusicgenDecoderConfig

class transformers.MusicgenDecoderConfig

< >

( vocab_size = 2048 max_position_embeddings = 2048 num_hidden_layers = 24 ffn_dim = 4096 num_attention_heads = 16 layerdrop = 0.0 use_cache = True activation_function = 'gelu' hidden_size = 1024 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 initializer_factor = 0.02 scale_embedding = False num_codebooks = 4 audio_channels = 1 pad_token_id = 2048 bos_token_id = 2048 eos_token_id = None tie_word_embeddings = False **kwargs )

参数

  • vocab_size (int, 可选, 默认为 2048) — MusicgenDecoder 模型的词汇表大小。定义了在调用 MusicgenDecoder 时传递的 inputs_ids 可以表示的不同 tokens 的数量。
  • hidden_size (int, 可选, 默认为 1024) — 层和池化器层的维度。
  • num_hidden_layers (int, 可选,默认为 24) — 解码器层数。
  • num_attention_heads (int, 可选,默认为 16) — Transformer 模块中每个注意力层的注意力头数。
  • ffn_dim (int, 可选,默认为 4096) — Transformer 模块中“中间”层(通常称为前馈层)的维度。
  • activation_function (strfunction, 可选,默认为 "gelu") — 解码器和池化器中的非线性激活函数(函数或字符串)。 如果是字符串,则支持 "gelu""relu""silu""gelu_new"
  • dropout (float, 可选,默认为 0.1) — 嵌入层、text_encoder 和池化器中所有全连接层的 dropout 概率。
  • attention_dropout (float, 可选,默认为 0.0) — 注意力概率的 dropout 比率。
  • activation_dropout (float, 可选,默认为 0.0) — 全连接层内部激活的 dropout 比率。
  • max_position_embeddings (int, 可选,默认为 2048) — 此模型可能使用的最大序列长度。 通常,将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。
  • initializer_factor (float, 可选,默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • layerdrop (float, 可选,默认为 0.0) — 解码器的 LayerDrop 概率。 有关更多详细信息,请参阅 [LayerDrop 论文](see https://arxiv.org/abs/1909.11556)。
  • scale_embedding (bool, 可选,默认为 False) — 是否通过除以 sqrt(hidden_size) 来缩放嵌入。
  • use_cache (bool, 可选,默认为 True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)
  • num_codebooks (int, 可选,默认为 4) — 并行转发到模型的代码本的数量。
  • tie_word_embeddings(bool, 可选,默认为 False) — 是否应绑定输入和输出词嵌入。
  • audio_channels (int, 可选,默认为 1) — 音频数据中的声道数。 1 表示单声道,2 表示立体声。 立体声模型为左右输出声道生成单独的音频流。 单声道模型生成单个音频流输出。

这是用于存储 MusicgenDecoder 配置的配置类。 它用于根据指定的参数实例化 MusicGen 解码器,定义模型架构。 使用默认值实例化配置将产生与 MusicGen facebook/musicgen-small 架构类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。 有关更多信息,请阅读 PretrainedConfig 的文档。

MusicgenConfig

class transformers.MusicgenConfig

< >

( **kwargs )

参数

  • kwargs (可选) — 关键字参数字典。 尤其:

    • text_encoder (PretrainedConfig, 可选) — 定义文本编码器配置的配置对象实例。
    • audio_encoder (PretrainedConfig, 可选) — 定义音频编码器配置的配置对象实例。
    • decoder (PretrainedConfig, 可选) — 定义解码器配置的配置对象实例。

这是用于存储 MusicgenModel 配置的配置类。 它用于根据指定的参数实例化 MusicGen 模型,定义文本编码器、音频编码器和 MusicGen 解码器配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。 有关更多信息,请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import (
...     MusicgenConfig,
...     MusicgenDecoderConfig,
...     T5Config,
...     EncodecConfig,
...     MusicgenForConditionalGeneration,
... )

>>> # Initializing text encoder, audio encoder, and decoder model configurations
>>> text_encoder_config = T5Config()
>>> audio_encoder_config = EncodecConfig()
>>> decoder_config = MusicgenDecoderConfig()

>>> configuration = MusicgenConfig.from_sub_models_config(
...     text_encoder_config, audio_encoder_config, decoder_config
... )

>>> # Initializing a MusicgenForConditionalGeneration (with random weights) from the facebook/musicgen-small style configuration
>>> model = MusicgenForConditionalGeneration(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config
>>> config_text_encoder = model.config.text_encoder
>>> config_audio_encoder = model.config.audio_encoder
>>> config_decoder = model.config.decoder

>>> # Saving the model, including its configuration
>>> model.save_pretrained("musicgen-model")

>>> # loading model and config from pretrained folder
>>> musicgen_config = MusicgenConfig.from_pretrained("musicgen-model")
>>> model = MusicgenForConditionalGeneration.from_pretrained("musicgen-model", config=musicgen_config)

from_sub_models_config

< >

( text_encoder_config: PretrainedConfig audio_encoder_config: PretrainedConfig decoder_config: MusicgenDecoderConfig **kwargs ) MusicgenConfig

返回

MusicgenConfig

配置对象的一个实例

从文本编码器、音频编码器和解码器配置实例化 MusicgenConfig(或派生类)。

MusicgenProcessor

class transformers.MusicgenProcessor

< >

( feature_extractor tokenizer )

参数

  • feature_extractor (EncodecFeatureExtractor) — EncodecFeatureExtractor 的一个实例。 特征提取器是必需的输入。
  • tokenizer (T5Tokenizer) — T5Tokenizer 的一个实例。 分词器是必需的输入。

构建一个 MusicGen 处理器,它将 EnCodec 特征提取器和 T5 分词器包装到单个处理器类中。

MusicgenProcessor 提供 EncodecFeatureExtractorTTokenizer 的所有功能。 有关更多信息,请参阅 __call__()decode()

batch_decode

< >

( *args **kwargs )

此方法用于解码来自 MusicGen 模型的音频输出批次,或来自分词器的 token id 批次。 在解码 token id 的情况下,此方法将其所有参数转发到 T5Tokenizer 的 batch_decode()。 有关更多信息,请参阅此方法的文档字符串。

decode

< >

( *args **kwargs )

此方法将其所有参数转发到 T5Tokenizer 的 decode()。 有关更多信息,请参阅此方法的文档字符串。

MusicgenModel

class transformers.MusicgenModel

< >

( config: MusicgenDecoderConfig )

参数

  • config (MusicgenConfig) — 具有模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。

裸 Musicgen 解码器模型输出原始隐藏状态,顶部没有任何特定的头部。

Musicgen 模型在 Simple and Controllable Music Generation 中由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi、Alexandre Défossez 提出。 它是一个在条件音乐生成任务上训练的编码器-解码器转换器

此模型继承自 PreTrainedModel。 查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。

forward

< >

( input_ids: LongTensor = None attention_mask: typing.Optional[torch.Tensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None past_key_values: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None )

参数

  • input_ids (torch.LongTensor,形状为 (batch_size * num_codebooks, sequence_length)) — 词汇表中输入序列标记的索引,对应于音频代码序列。

    索引可以通过使用音频编码器模型对音频提示进行编码以预测音频代码来获得,例如使用 EncodecModel。 有关详细信息,请参阅 EncodecModel.encode()

    什么是输入 ID?

    input_ids 将在正向传递中自动从形状 (batch_size * num_codebooks, target_sequence_length) 转换为 (batch_size, num_codebooks, target_sequence_length)。 如果您从音频编码模型(例如 EncodecModel)获得音频代码,请确保帧数等于 1,并且在将音频代码作为 input_ids 传递之前,将音频代码从 (frames, batch_size, num_codebooks, target_sequence_length) 重塑为 (batch_size * num_codebooks, target_sequence_length)

  • attention_mask (torch.Tensor,形状为 (batch_size, sequence_length)可选) — 掩码,用于避免对填充标记索引执行注意力机制。 掩码值在 [0, 1] 中选择:

    • 1 表示标记未被掩盖
    • 0 表示标记已被掩盖

    什么是注意力掩码?

  • encoder_hidden_states (torch.FloatTensor,形状为 (batch_size, encoder_sequence_length, hidden_size)可选) — 编码器最后一层输出端的隐藏状态序列。 用于解码器的交叉注意力机制。
  • encoder_attention_mask (torch.LongTensor,形状为 (batch_size, encoder_sequence_length)可选) — 掩码,用于避免对编码器 input_ids 的填充标记索引执行交叉注意力机制。 掩码值在 [0, 1] 中选择:

    • 1 表示标记未被掩盖
    • 0 表示标记已被掩盖

    什么是注意力掩码?

  • head_mask (torch.Tensor,形状为 (decoder_layers, decoder_attention_heads)可选) — 掩码,用于使注意力模块的选定头部无效。 掩码值在 [0, 1] 中选择:

    • 1 表示头部未被掩盖
    • 0 表示头部已被掩盖
  • cross_attn_head_mask (torch.Tensor,形状为 (decoder_layers, decoder_attention_heads)可选) — 掩码,用于使解码器中交叉注意力模块的选定头部无效,以避免对隐藏头部执行交叉注意力机制。 掩码值在 [0, 1] 中选择:

    • 1 表示头部未被掩盖
    • 0 表示头部已被掩盖
  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=Trueconfig.use_cache=True 时返回) — 长度为 config.n_layerstuple(tuple(torch.FloatTensor)) 元组,每个元组有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),这些状态可以用于(请参阅 past_key_values 输入)加速顺序解码。

    如果使用 past_key_values,则用户可以选择仅输入最后 decoder_input_ids(那些没有将其过去的键值状态提供给此模型的)形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)decoder_input_ids

  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — (可选)您可以选择直接传递嵌入表示,而不是传递 input_ids。 如果您想要比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量,这将非常有用。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有图层的隐藏状态。 有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是普通元组。

MusicgenModel forward 方法,覆盖了 __call__ 特殊方法。

虽然正向传递的配方需要在该函数内定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

MusicgenForCausalLM

class transformers.MusicgenForCausalLM

< >

( config: MusicgenDecoderConfig )

参数

  • config (MusicgenConfig) — 具有模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。

带有语言建模头部的 MusicGen 解码器模型。

Musicgen 模型在 Simple and Controllable Music Generation 中由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi、Alexandre Défossez 提出。 它是一个在条件音乐生成任务上训练的编码器-解码器转换器

此模型继承自 PreTrainedModel。 查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。

forward

< >

( input_ids: LongTensor = None attention_mask: typing.Optional[torch.Tensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None past_key_values: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size * num_codebooks, sequence_length)) — 词汇表中输入序列 tokens 的索引,对应于音频代码序列。

    索引可以通过使用音频编码器模型编码音频提示以预测音频代码来获得,例如使用 EncodecModel。 有关详细信息,请参阅 EncodecModel.encode()

    什么是输入 IDs?

    input_ids 将在正向传播中自动从形状 (batch_size * num_codebooks, target_sequence_length) 转换为 (batch_size, num_codebooks, target_sequence_length)。 如果您从音频编码模型(例如 EncodecModel)获取音频代码,请确保帧数等于 1,并且在将音频代码作为 input_ids 传递之前,将音频代码从 (frames, batch_size, num_codebooks, target_sequence_length) 重塑为 (batch_size * num_codebooks, target_sequence_length)

  • attention_mask (torch.Tensor,形状为 (batch_size, sequence_length)可选) — 掩码,用于避免对填充 token 索引执行注意力机制。 掩码值在 [0, 1] 中选择:

    • 1 表示 token 未被掩盖
    • 0 表示 token 已被掩盖

    什么是注意力掩码?

  • encoder_hidden_states (torch.FloatTensor,形状为 (batch_size, encoder_sequence_length, hidden_size)可选) — 编码器最后一层输出的隐藏状态序列。 用于解码器的交叉注意力机制。
  • encoder_attention_mask (torch.LongTensor,形状为 (batch_size, encoder_sequence_length)可选) — 掩码,用于避免对编码器 input_ids 的填充 token 索引执行交叉注意力机制。 掩码值在 [0, 1] 中选择:

    • 1 表示 token 未被掩盖
    • 0 表示 token 已被掩盖

    什么是注意力掩码?

  • head_mask (torch.Tensor,形状为 (decoder_layers, decoder_attention_heads)可选) — 掩码,用于使注意力模块的选定 head 失效。 掩码值在 [0, 1] 中选择:

    • 1 表示 head 未被掩盖
    • 0 表示 head 已被掩盖
  • cross_attn_head_mask (torch.Tensor,形状为 (decoder_layers, decoder_attention_heads)可选) — 掩码,用于使解码器中交叉注意力模块的选定 head 失效,以避免对隐藏的 head 执行交叉注意力机制。 掩码值在 [0, 1] 中选择:

    • 1 表示 head 未被掩盖
    • 0 表示 head 已被掩盖
  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=Trueconfig.use_cache=True 时返回) — 长度为 config.n_layerstuple(tuple(torch.FloatTensor)) 元组,其中每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),这些状态可以用于(请参阅 past_key_values 输入)加速顺序解码。

    如果使用 past_key_values,则用户可以选择仅输入最后面的 decoder_input_ids(那些没有将其过去的键值状态提供给此模型的),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)decoder_input_ids

  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递 input_ids。 如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是纯元组。
  • labels (torch.LongTensor,形状为 (batch_size, sequence_length, num_codebooks)可选) — 用于语言建模的标签。 请注意,标签在模型内部已移位,即您可以设置 labels = input_ids。 索引在 [-100, 0, ..., config.vocab_size] 中选择。 所有设置为 -100 的标签都将被忽略(掩盖),损失仅针对 [0, ..., config.vocab_size] 中的标签计算

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutputtorch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含各种元素,具体取决于配置 (MusicgenConfig) 和输入。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失。

  • logits (torch.FloatTensor,形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模 head 的预测分数(SoftMax 之前每个词汇表 token 的分数)。

  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layerstuple(tuple(torch.FloatTensor)) 元组,其中每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),这些状态可以用于(请参阅 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型具有嵌入层,则为嵌入输出提供一个,+ 为每一层的输出提供一个),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出的隐藏状态,加上初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力 head 中的加权平均值。

  • cross_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力 head 中的加权平均值。

  • encoder_last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型具有嵌入层,则为嵌入输出提供一个,+ 为每一层的输出提供一个),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出的隐藏状态,加上初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力 head 中的加权平均值。

MusicgenForCausalLM forward 方法,覆盖了 __call__ 特殊方法。

虽然正向传递的配方需要在该函数内定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

MusicgenForConditionalGeneration

class transformers.MusicgenForConditionalGeneration

< >

( config: typing.Optional[transformers.models.musicgen.configuration_musicgen.MusicgenConfig] = None text_encoder: typing.Optional[transformers.modeling_utils.PreTrainedModel] = None audio_encoder: typing.Optional[transformers.modeling_utils.PreTrainedModel] = None decoder: typing.Optional[transformers.models.musicgen.modeling_musicgen.MusicgenForCausalLM] = None )

参数

  • config (MusicgenConfig) — 带有模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。

具有文本编码器、音频编码器和 Musicgen 解码器的复合 MusicGen 模型,用于使用文本和/或音频提示的音乐生成任务。

Musicgen 模型在 Simple and Controllable Music Generation 中由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi、Alexandre Défossez 提出。 它是一个在条件音乐生成任务上训练的编码器-解码器转换器

此模型继承自 PreTrainedModel。 查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。

此模型也是 PyTorch torch.nn.Module 子类。 将其用作常规 PyTorch 模块,并参阅 PyTorch 文档,了解与常规用法和行为相关的所有事项。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.BoolTensor] = None input_values: typing.Optional[torch.FloatTensor] = None padding_mask: typing.Optional[torch.BoolTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None encoder_outputs: typing.Optional[typing.Tuple[torch.FloatTensor]] = None past_key_values: typing.Tuple[typing.Tuple[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。如果您提供 padding,默认情况下将被忽略。

    索引可以使用 AutoTokenizer 获得。 有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 IDs?

  • attention_mask (torch.Tensor,形状为 (batch_size, sequence_length)可选) — 用于避免在 padding token 索引上执行 attention 的 Mask。Mask 值在 [0, 1] 中选择:

    • 1 表示 token 未被 mask
    • 0 表示 token 被 mask

    什么是 attention masks?

  • decoder_input_ids (torch.LongTensor,形状为 (batch_size * num_codebooks, target_sequence_length)可选) — 解码器输入序列 tokens 在词汇表中的索引,对应于音频代码序列。

    索引可以通过使用音频编码器模型(例如 EncodecModel)编码音频提示来获得,以预测音频代码。 有关详细信息,请参阅 EncodecModel.encode()

    什么是解码器输入 IDs?

    decoder_input_ids 将在 forward 过程中自动从形状 (batch_size * num_codebooks, target_sequence_length) 转换为 (batch_size, num_codebooks, target_sequence_length)。 如果您从音频编码模型(例如 EncodecModel)获得音频代码,请确保帧数等于 1,并在将音频代码作为 decoder_input_ids 传递之前,将音频代码从 (frames, batch_size, num_codebooks, target_sequence_length) 重塑为 (batch_size * num_codebooks, target_sequence_length)

  • decoder_attention_mask (torch.LongTensor,形状为 (batch_size, target_sequence_length)可选) — 默认行为:生成一个 tensor,该 tensor 忽略 decoder_input_ids 中的 pad tokens。默认情况下,也将使用因果 mask。
  • head_mask (torch.Tensor,形状为 (encoder_layers, encoder_attention_heads)可选) — 用于 nullify 编码器中 attention 模块的选定 head 的 Mask。Mask 值在 [0, 1] 中选择:

    • 1 表示 head 未被 mask
    • 0 表示 head 被 mask
  • decoder_head_mask (torch.Tensor,形状为 (decoder_layers, decoder_attention_heads)可选) — 用于 nullify 解码器中 attention 模块的选定 head 的 Mask。Mask 值在 [0, 1] 中选择:

    • 1 表示 head 未被 mask
    • 0 表示 head 被 mask
  • cross_attn_head_mask (torch.Tensor,形状为 (decoder_layers, decoder_attention_heads)可选) — 用于 nullify 解码器中 cross-attention 模块的选定 head 的 Mask。Mask 值在 [0, 1] 中选择:

    • 1 表示 head 未被 mask
    • 0 表示 head 被 mask
  • encoder_outputs (tuple(tuple(torch.FloatTensor)可选) — Tuple 由 (last_hidden_state可选hidden_states可选attentions) 组成。 last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)可选) 是编码器最后一层的输出端的 hidden-states 序列。在解码器的 cross-attention 中使用。
  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=Trueconfig.use_cache=True 时返回) — 长度为 config.n_layerstuple(torch.FloatTensor) 的元组,其中每个元组有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的 tensors 和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加 tensors。

    包含预先计算的 hidden-states(self-attention 块和 cross-attention 块中的 key 和 values),可以用于(请参阅 past_key_values 输入)加速顺序解码。

    如果使用 past_key_values,则用户可以选择仅输入最后一次的 decoder_input_ids (那些没有将其过去的 key value states 提供给此模型的),形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)decoder_input_ids

  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — (可选)您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量,这将非常有用。
  • decoder_inputs_embeds (torch.FloatTensor,形状为 (batch_size, target_sequence_length, hidden_size)可选) — (可选)您可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果使用 past_key_values,则可以选择仅输入最后一次的 decoder_inputs_embeds(请参阅 past_key_values)。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 decoder_input_ids 索引转换为关联的向量,这将非常有用。

    如果 decoder_input_idsdecoder_inputs_embeds 均未设置,则 decoder_inputs_embedsinputs_embeds 的值。

  • labels (torch.LongTensor,形状为 (batch_size, sequence_length, num_codebooks)可选) — 用于语言建模的标签。 请注意,标签在模型内部被移位,即您可以设置 labels = input_ids。 索引在 [-100, 0, ..., config.vocab_size] 中选择。 所有设置为 -100 的标签都将被忽略(mask),损失仅针对 [0, ..., config.vocab_size] 中的标签计算。
  • use_cache (bool可选) — 如果设置为 True,则返回 past_key_values 键值状态,并且可以用于加速解码(请参阅 past_key_values)。
  • output_attentions (bool可选) — 是否返回所有 attention 层的 attentions tensors。 有关更多详细信息,请参见返回的 tensors 下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的 hidden states。 有关更多详细信息,请参见返回的 tensors 下的 hidden_states
  • return_dict (bool可选) — 是否返回 ModelOutput 而不是普通 tuple。

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutputtorch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含各种元素,具体取决于配置 (MusicgenConfig) 和输入。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失。

  • logits (torch.FloatTensor,形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模 head 的预测分数(SoftMax 之前每个词汇表 token 的分数)。

  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layerstuple(tuple(torch.FloatTensor)) 元组,其中每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

    包含预先计算的隐藏状态(自注意力模块和交叉注意力模块中的键和值),这些状态可以用于(请参阅 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型具有嵌入层,则为嵌入输出提供一个,+ 为每一层的输出提供一个),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出的隐藏状态,加上初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力 head 中的加权平均值。

  • cross_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力 head 中的加权平均值。

  • encoder_last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型具有嵌入层,则为嵌入输出提供一个,+ 为每一层的输出提供一个),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出的隐藏状态,加上初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组(每层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力 head 中的加权平均值。

MusicgenForConditionalGeneration forward 方法,覆盖了 __call__ 特殊方法。

虽然正向传递的配方需要在该函数内定义,但应该在之后调用 Module 实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> import torch

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> inputs = processor(
...     text=["80s pop track with bassy drums and synth", "90s rock song with loud guitars and heavy drums"],
...     padding=True,
...     return_tensors="pt",
... )

>>> pad_token_id = model.generation_config.pad_token_id
>>> decoder_input_ids = (
...     torch.ones((inputs.input_ids.shape[0] * model.decoder.num_codebooks, 1), dtype=torch.long)
...     * pad_token_id
... )

>>> logits = model(**inputs, decoder_input_ids=decoder_input_ids).logits
>>> logits.shape  # (bsz * num_codebooks, tgt_len, vocab_size)
torch.Size([8, 1, 2048])
< > 在 GitHub 上更新