CLVP

概述

CLVP（对比语言-语音预训练 Transformer）模型由 James Betker 在通过缩放获得更好的语音合成中提出。

该论文的摘要如下：

近年来，图像生成领域因自回归 Transformer 和 DDPM 的应用而发生了革命性的变化。这些方法将图像生成过程建模为逐步概率过程，并利用大量的计算和数据来学习图像分布。这种提高性能的方法不应仅限于图像。本文介绍了一种将图像生成领域的进展应用于语音合成的方法。结果是 TorToise - 一种富有表现力的多语音文本到语音系统。

此模型由 Susnato Dhar 贡献。原始代码可以在这里找到。

使用技巧

CLVP 是 Tortoise TTS 模型不可或缺的一部分。
CLVP 可用于将不同的生成的语音候选项与提供的文本进行比较，并将最佳的语音 tokens 转发到扩散模型。
强烈建议在 tortoise 中使用 ClvpModelForConditionalGeneration.generate() 方法。
请注意，与其他期望 16 kHz 音频模型的音频模型相反，CLVP 模型期望音频以 22.05 kHz 的采样率进行采样。

简要说明：

ClvpTokenizer 对文本输入进行分词，ClvpFeatureExtractor 从所需的音频中提取 log mel 频谱图。
ClvpConditioningEncoder 接受这些文本 tokens 和音频表示，并将它们转换为以文本和音频为条件的嵌入。
ClvpForCausalLM 使用这些嵌入来生成多个语音候选项。
每个语音候选项都通过语音编码器 (ClvpEncoder) 传递，语音编码器将它们转换为向量表示，文本编码器 (ClvpEncoder) 将文本 tokens 转换为相同的潜在空间。
最后，我们将每个语音向量与文本向量进行比较，以查看哪个语音向量与文本向量最相似。
ClvpModelForConditionalGeneration.generate() 将上述所有逻辑压缩到一个方法中。

示例

>>> import datasets
>>> from transformers import ClvpProcessor, ClvpModelForConditionalGeneration

>>> # Define the Text and Load the Audio (We are taking an audio example from HuggingFace Hub using `datasets` library).
>>> text = "This is an example text."

>>> ds = datasets.load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> ds = ds.cast_column("audio", datasets.Audio(sampling_rate=22050))
>>> sample = ds[0]["audio"]

>>> # Define processor and model.
>>> processor = ClvpProcessor.from_pretrained("susnato/clvp_dev")
>>> model = ClvpModelForConditionalGeneration.from_pretrained("susnato/clvp_dev")

>>> # Generate processor output and model output.
>>> processor_output = processor(raw_speech=sample["array"], sampling_rate=sample["sampling_rate"], text=text, return_tensors="pt")
>>> generated_output = model.generate(**processor_output)

Transformers

CLVP

概述

使用技巧

简要说明：

ClvpConfig

class transformers.ClvpConfig

from_sub_model_configs

ClvpEncoderConfig

class transformers.ClvpEncoderConfig

ClvpDecoderConfig

class transformers.ClvpDecoderConfig

ClvpTokenizer

class transformers.ClvpTokenizer

save_vocabulary

ClvpFeatureExtractor

class transformers.ClvpFeatureExtractor

__call__

ClvpProcessor

class transformers.ClvpProcessor

__call__

decode

batch_decode

ClvpModelForConditionalGeneration

class transformers.ClvpModelForConditionalGeneration

forward

generate

get_text_features

get_speech_features

ClvpForCausalLM

类 transformers.ClvpForCausalLM

forward

ClvpModel

类 transformers.ClvpModel

forward

ClvpEncoder

class transformers.ClvpEncoder

forward

ClvpDecoder

class transformers.ClvpDecoder

forward

call

call