Transformers

加入 Hugging Face 社区

并获取增强的文档体验

协作开发模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始

Jukebox

此模型仅处于维护模式，我们不接受任何更改其代码的新 PR。如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.40.2。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.40.2。

概述

Jukebox 模型由 Prafulla Dhariwal、Heewoo Jun、Christine Payne、Jong Wook Kim、Alec Radford、Ilya Sutskever 在论文《Jukebox: A generative model for music》中提出。它介绍了一种生成式音乐模型，可以生成时长数分钟的样本，并可以根据艺术家、流派和歌词进行调节。

该论文的摘要如下：

我们介绍了 Jukebox，这是一种在原始音频域中生成带歌唱的音乐的模型。我们使用多尺度 VQ-VAE 将原始音频压缩为离散代码，并使用自回归 Transformers 对这些代码进行建模，从而解决了原始音频的长上下文问题。我们表明，大规模的组合模型可以生成高保真度和多样化的歌曲，其连贯性可达数分钟。我们可以根据艺术家和流派来引导音乐和 vocal 风格，并根据未对齐的歌词来使歌唱更易于控制。我们正在发布数千个非精选样本，以及模型权重和代码。

如下图所示，Jukebox 由 3 个 priors 组成，它们是仅解码器模型。它们遵循《Generating Long Sequences with Sparse Transformers》中描述的架构，并进行了修改以支持更长的上下文长度。首先，使用自动编码器对文本歌词进行编码。接下来，第一个（也称为 top_prior）prior 注意从歌词编码器中提取的最后一个隐藏状态。priors 分别通过 AudioConditioner 模块链接到先前的 priors。AudioConditioner 将先前 prior 的输出上采样到原始 tokens，达到每秒特定音频帧的分辨率。诸如艺术家、流派和时间之类的元数据以起始 token 和时间数据的 positional embedding 的形式传递给每个 prior。隐藏状态被映射到 VQVAE 中最接近的 codebook 向量，以便将它们转换为原始音频。

JukeboxModel

此模型由 Arthur Zucker 贡献。原始代码可以在这里找到。

使用技巧

此模型仅支持推理。这有几个原因，主要是因为它需要大量的内存来训练。欢迎随时提交 PR 并添加缺少的内容，以实现与 hugging face trainer 的完全集成！
此模型非常慢，使用 V100 GPU 上的 5b top prior 生成一分钟的音频需要 8 小时。为了自动处理模型应在其上执行的设备，请使用 accelerate。
与论文相反，priors 的顺序从 0 到 1，因为感觉更直观：我们从 0 开始采样。
Primed 采样（根据原始音频调节采样）比 ancestral 采样需要更多的内存，应将 fp16 设置为 True 使用。

此模型由 Arthur Zucker 贡献。原始代码可以在这里找到。

Transformers

Jukebox

概述

使用技巧

JukeboxConfig

class transformers.JukeboxConfig

from_configs

JukeboxPriorConfig

class transformers.JukeboxPriorConfig

JukeboxVQVAEConfig

class transformers.JukeboxVQVAEConfig

JukeboxTokenizer

class transformers.JukeboxTokenizer

save_vocabulary

JukeboxModel

class transformers.JukeboxModel

ancestral_sample

primed_sample

continue_sample

upsample

_sample

JukeboxPrior

class transformers.JukeboxPrior

sample

forward

JukeboxVQVAE

class transformers.JukeboxVQVAE

forward

encode

decode