Bark

概述 (Overview)

Bark 是 Suno AI 在 suno-ai/bark 中提出的基于 Transformer 的文本到语音模型。

Bark 由 4 个主要模型组成 (Bark is made of 4 main models)

BarkSemanticModel（也称为“文本”模型）：一种因果自回归 Transformer 模型，它将标记化的文本作为输入，并预测捕获文本含义的语义文本标记。
BarkCoarseModel（也称为“粗糙声学”模型）：一种因果自回归 Transformer，它将 BarkSemanticModel 模型的输出结果作为输入。它的目的是预测 EnCodec 所需的前两个音频代码本。
BarkFineModel（“精细声学”模型），这次是非因果自编码器 Transformer，它基于先前代码本嵌入的总和迭代地预测最后一个代码本。
在预测了 EncodecModel 的所有代码本通道后，Bark 使用它来解码输出音频数组。

应该注意的是，前三个模块中的每一个都可以支持条件说话人嵌入，以根据特定的预定义声音来调节输出声音。

此模型由 Yoach Lacombe (ylacombe) 和 Sanchit Gandhi (sanchit-gandhi) 贡献。原始代码可以在这里找到。

优化 Bark (Optimizing Bark)

只需几行额外的代码即可优化 Bark，这会显著减少其内存占用并加速推理。

使用半精度 (Using half-precision)

您可以通过以半精度加载模型，简单地将推理速度提高 50%，并减少内存占用。

from transformers import BarkModel
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model = BarkModel.from_pretrained("suno/bark-small", torch_dtype=torch.float16).to(device)

使用 CPU 卸载 (Using CPU offload)

如上所述，Bark 由 4 个子模型组成，这些子模型在音频生成期间按顺序调用。换句话说，当一个子模型正在使用时，其他子模型处于空闲状态。

如果您正在使用 CUDA 设备，那么一个简单的解决方案是从 GPU 卸载子模型到 CPU，以获得 80% 的内存占用减少，当它们处于空闲状态时。此操作称为CPU 卸载。您可以使用以下一行代码来使用它

model.enable_cpu_offload()

请注意，使用此功能前必须安装 🤗 Accelerate。这是安装方法。

使用 Better Transformer (Using Better Transformer)

Better Transformer 是 🤗 Optimum 的一项功能，它在后台执行内核融合。您可以获得 20% 到 30% 的速度提升，且性能不会降低。只需一行代码即可将模型导出到 🤗 Better Transformer

model =  model.to_bettertransformer()

请注意，使用此功能前必须安装 🤗 Optimum。这是安装方法。

使用 Flash Attention 2 (Using Flash Attention 2)

Flash Attention 2 是先前优化的更快、更优化的版本。

安装 (Installation)

首先，检查您的硬件是否与 Flash Attention 2 兼容。兼容硬件的最新列表可以在官方文档中找到。如果您的硬件与 Flash Attention 2 不兼容，您仍然可以通过上面介绍的 Better Transformer 支持中受益于注意力内核优化。

接下来，安装最新版本的 Flash Attention 2

pip install -U flash-attn --no-build-isolation

用法 (Usage)

要使用 Flash Attention 2 加载模型，我们可以将 attn_implementation="flash_attention_2" 标志传递给 .from_pretrained。我们还将以半精度（例如 torch.float16）加载模型，因为它几乎不会降低音频质量，但会显著降低内存使用率并加快推理速度

model = BarkModel.from_pretrained("suno/bark-small", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)

性能对比 (Performance comparison)

下图显示了原生注意力实现（无优化）与 Better Transformer 和 Flash Attention 2 的延迟。在所有情况下，我们在配备 PyTorch 2.1 的 40GB A100 GPU 上生成 400 个语义标记。Flash Attention 2 也始终比 Better Transformer 快，并且随着批次大小的增加，其性能会得到更大的提升

为了说明这一点，在 NVIDIA A100 上，当以 16 的批次大小生成 400 个语义标记时，您可以获得 17 倍的吞吐量，并且仍然比使用原生模型实现逐句生成句子快 2 秒。换句话说，所有样本的生成速度将提高 17 倍。

在 NVIDIA A100 上，批次大小为 8 时，Flash Attention 2 也比 Better Transformer 快 10%，而批次大小为 16 时快 25%。

结合优化技术 (Combining optimization techniques)

您可以结合优化技术，并同时使用 CPU 卸载、半精度和 Flash Attention 2（或 🤗 Better Transformer）。

from transformers import BarkModel
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"

# load in fp16 and use Flash Attention 2
model = BarkModel.from_pretrained("suno/bark-small", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)

# enable CPU offload
model.enable_cpu_offload()

在此处了解有关推理优化技术的更多信息。

使用技巧 (Usage tips)

Suno 在此处提供了多种语言的声音预设库。这些预设也上传到 hub 的此处或此处。

>>> from transformers import AutoProcessor, BarkModel

>>> processor = AutoProcessor.from_pretrained("suno/bark")
>>> model = BarkModel.from_pretrained("suno/bark")

>>> voice_preset = "v2/en_speaker_6"

>>> inputs = processor("Hello, my dog is cute", voice_preset=voice_preset)

>>> audio_array = model.generate(**inputs)
>>> audio_array = audio_array.cpu().numpy().squeeze()

Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。

>>> # Multilingual speech - simplified Chinese
>>> inputs = processor("惊人的！我会说中文")

>>> # Multilingual speech - French - let's use a voice_preset as well
>>> inputs = processor("Incroyable! Je peux générer du son.", voice_preset="fr_speaker_5")

>>> # Bark can also generate music. You can help it out by adding music notes around your lyrics.
>>> inputs = processor("♪ Hello, my dog is cute ♪")

>>> audio_array = model.generate(**inputs)
>>> audio_array = audio_array.cpu().numpy().squeeze()

该模型还可以产生非语言交流，例如笑声、叹息和哭泣。

>>> # Adding non-speech cues to the input text
>>> inputs = processor("Hello uh ... [clears throat], my dog is cute [laughter]")

>>> audio_array = model.generate(**inputs)
>>> audio_array = audio_array.cpu().numpy().squeeze()

要保存音频，只需从模型配置和一些 scipy 实用程序中获取采样率

>>> from scipy.io.wavfile import write as write_wav

>>> # save audio to disk, but first take the sample rate from the model config
>>> sample_rate = model.generation_config.sample_rate
>>> write_wav("bark_generation.wav", sample_rate, audio_array)

Transformers

Bark

概述 (Overview)

优化 Bark (Optimizing Bark)

使用半精度 (Using half-precision)

使用 CPU 卸载 (Using CPU offload)

使用 Better Transformer (Using Better Transformer)

使用 Flash Attention 2 (Using Flash Attention 2)

安装 (Installation)

用法 (Usage)

性能对比 (Performance comparison)

结合优化技术 (Combining optimization techniques)

使用技巧 (Usage tips)

BarkConfig

class transformers.BarkConfig

from_sub_model_configs

BarkProcessor

class transformers.BarkProcessor

__call__

from_pretrained

save_pretrained

BarkModel

class transformers.BarkModel

generate

enable_cpu_offload

BarkSemanticModel

class transformers.BarkSemanticModel

forward

BarkCoarseModel

class transformers.BarkCoarseModel

forward

BarkFineModel

class transformers.BarkFineModel

forward

BarkCausalModel

class transformers.BarkCausalModel

forward

BarkCoarseConfig

class transformers.BarkCoarseConfig

BarkFineConfig

class transformers.BarkFineConfig

BarkSemanticConfig

class transformers.BarkSemanticConfig

call