Dia

概述

Dia 是一个由 Nari Labs 开发的开源文本转语音 (TTS) 模型（1.6B 参数）。它可以从文本中生成高度逼真的对话，包括笑声和咳嗽等非语言交流。此外，通过音频条件（语音克隆）还可以控制情感和语调。

模型架构： Dia 是一个基于原始 Transformer 架构的编码器-解码器 Transformer。但是，也包含了一些更现代的特性，例如旋转位置嵌入 (RoPE)。对于其文本部分（编码器），使用字节分词器，而对于音频部分（解码器），则使用预训练的编解码模型 DAC - DAC 将语音编码为离散的码本令牌，然后将其解码回音频。

使用技巧

文本生成

from transformers import AutoProcessor, DiaForConditionalGeneration

torch_device = "cuda"
model_checkpoint = "buttercrab/dia-v1-1.6b"

text = ["[S1] Dia is an open weights text to dialogue model."]
processor = AutoProcessor.from_pretrained(model_checkpoint)
inputs = processor(text=text, padding=True, return_tensors="pt").to(torch_device)

model = DiaForConditionalGeneration.from_pretrained(model_checkpoint).to(torch_device)
outputs = model.generate(**inputs, max_new_tokens=256)  # corresponds to around ~2s

# save audio to a file
outputs = processor.batch_decode(outputs)
processor.save_audio(outputs, "example.wav")

文本和音频生成（语音克隆）

from datasets import load_dataset, Audio
from transformers import AutoProcessor, DiaForConditionalGeneration

torch_device = "cuda"
model_checkpoint = "buttercrab/dia-v1-1.6b"

ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
ds = ds.cast_column("audio", Audio(sampling_rate=44100))
audio = ds[-1]["audio"]["array"]
# text is a transcript of the audio + additional text you want as new audio
text = ["[S1] I know. It's going to save me a lot of money, I hope. [S2] I sure hope so for you."]

processor = AutoProcessor.from_pretrained(model_checkpoint)
inputs = processor(text=text, audio=audio, padding=True, return_tensors="pt").to(torch_device)
prompt_len = processor.get_audio_prompt_len(inputs["decoder_attention_mask"])

model = DiaForConditionalGeneration.from_pretrained(model_checkpoint).to(torch_device)
outputs = model.generate(**inputs, max_new_tokens=256)  # corresponds to around ~2s

# retrieve actually generated audio and save to a file
outputs = processor.batch_decode(outputs, audio_prompt_len=prompt_len)
processor.save_audio(outputs, "example_with_audio.wav")

训练

from datasets import load_dataset, Audio
from transformers import AutoProcessor, DiaForConditionalGeneration

torch_device = "cuda"
model_checkpoint = "buttercrab/dia-v1-1.6b"

ds = load_dataset("hf-internal-testing/dailytalk-dummy", split="train")
ds = ds.cast_column("audio", Audio(sampling_rate=44100))
audio = ds[-1]["audio"]["array"]
# text is a transcript of the audio
text = ["[S1] I know. It's going to save me a lot of money, I hope."]

processor = AutoProcessor.from_pretrained(model_checkpoint)
inputs = processor(
    text=text,
    audio=audio,
    generation=False,
    output_labels=True,
    padding=True,
    return_tensors="pt"
).to(torch_device)

model = DiaForConditionalGeneration.from_pretrained(model_checkpoint).to(torch_device)
out = model(**inputs)
out.loss.backward()

此模型由 Jaeyong Sung、Arthur Zucker 和 Anton Vlasjuk 贡献。原始代码可以在这里找到。

DiaConfig

class transformers.DiaConfig

< 来源 >

( encoder_config: typing.Optional[transformers.models.dia.configuration_dia.DiaEncoderConfig] = None decoder_config: typing.Optional[transformers.models.dia.configuration_dia.DiaDecoderConfig] = None norm_eps: float = 1e-05 is_encoder_decoder: bool = True pad_token_id: int = 1025 eos_token_id: int = 1024 bos_token_id: int = 1026 delay_pattern: typing.Optional[list[int]] = None initializer_range: float = 0.02 use_cache: bool = True **kwargs )

参数

encoder_config (DiaEncoderConfig, 可选) — 模型的编码器部分的配置。如果未提供，将使用默认的 DiaEncoderConfig。
decoder_config (DiaDecoderConfig, 可选) — 模型的解码器部分的配置。如果未提供，将使用默认的 DiaDecoderConfig。
norm_eps (float, 可选, 默认为 1e-05) — 归一化层使用的 epsilon 值。
is_encoder_decoder (bool, 可选, 默认为 True) — 指示此模型是否使用编码器-解码器架构。
pad_token_id (int, 可选, 默认为 1025) — 填充令牌 ID。
eos_token_id (int, 可选, 默认为 1024) — 流结束令牌 ID。
bos_token_id (int, 可选, 默认为 1026) — 流开始令牌 ID。
delay_pattern (list[int], 可选, 默认为 [0, 8, 9, 10, 11, 12, 13, 14, 15]) — 解码器的延迟模式。此列表的长度必须与 decoder_config.num_channels 匹配。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后一个键/值注意力（并非所有模型都使用）。

这是用于存储 DiaModel 配置的配置类。它用于根据指定参数实例化 Dia 模型，定义模型架构。使用默认值实例化配置将生成与 nari-labs/Dia-1.6B 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import DiaConfig, DiaModel

>>> # Initializing a DiaConfig with default values
>>> configuration = DiaConfig()

>>> # Initializing a DiaModel (with random weights) from the configuration
>>> model = DiaModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

get_text_config

< 来源 >

( decoder = False )

默认使用音频配置，因为在这种情况下，它通常是文本主干的解码器。

DiaDecoderConfig

class transformers.DiaDecoderConfig

< 来源 >

( max_position_embeddings: int = 3072 num_hidden_layers: int = 18 hidden_size: int = 2048 intermediate_size: int = 8192 num_attention_heads: int = 16 num_key_value_heads: int = 4 head_dim: int = 128 cross_num_attention_heads: int = 16 cross_head_dim: int = 128 cross_num_key_value_heads: int = 16 cross_hidden_size: int = 1024 norm_eps: float = 1e-05 vocab_size: int = 1028 hidden_act: str = 'silu' num_channels: int = 9 rope_theta: float = 10000.0 rope_scaling: typing.Optional[dict] = None initializer_range: float = 0.02 use_cache: bool = True is_encoder_decoder: bool = True **kwargs )

参数

max_position_embeddings (int, 可选, 默认为 3072) — 此模型可能使用的最大序列长度。
num_hidden_layers (int, 可选, 默认为 18) — Transformer 解码器中的隐藏层数量。
hidden_size (int, 可选, 默认为 2048) — 解码器层和池化层的维度。
intermediate_size (int, 可选, 默认为 8192) — Transformer 解码器中“中间”（通常称为前馈）层的维度。
num_attention_heads (int, 可选, 默认为 16) — Transformer 解码器中每个注意力层的注意力头数量。
num_key_value_heads (int, 可选, 默认为 4) — Transformer 解码器中每个注意力层的键和值头数量。
head_dim (int, 可选, 默认为 128) — 注意力头的维度。
cross_num_attention_heads (int, 可选, 默认为 16) — Transformer 解码器中每个交叉注意力层的注意力头数量。
cross_head_dim (int, 可选, 默认为 128) — 交叉注意力头的维度。
cross_num_key_value_heads (int, 可选, 默认为 16) — Transformer 解码器中每个交叉注意力层的键和值头数量。
cross_hidden_size (int, 可选, 默认为 1024) — 交叉注意力层的维度。
norm_eps (float, 可选, 默认为 1e-05) — 归一化层使用的 epsilon 值。
vocab_size (int, 可选, 默认为 1028) — Dia 模型的词汇表大小。定义了调用 DiaModel 时通过 inputs_ids 表示的不同令牌的数量。
hidden_act (str 或 function, 可选, 默认为 "silu") — 解码器中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "gelu"、"relu"、"swish" 和 "gelu_new"。
num_channels (int, 可选, 默认为 9) — Dia 解码器的通道数。
rope_theta (float, 可选, 默认为 10000.0) — RoPE 嵌入的基本周期。
rope_scaling (dict, 可选) — 包含 RoPE 嵌入缩放配置的字典。注意：如果您应用新的 RoPE 类型并期望模型在更长的 max_position_embeddings 上工作，我们建议您相应地更新此值。预期内容：rope_type (str)：要使用的 RoPE 子变体。可以是 [‘default’, ‘linear’, ‘dynamic’, ‘yarn’, ‘longrope’, ‘llama3’] 之一，其中 ‘default’ 是原始 RoPE 实现。factor (float, 可选)：除 ‘default’ 外所有 RoPE 类型都使用。应用于 RoPE 嵌入的缩放因子。在大多数缩放类型中，x 的 factor 将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings (int, 可选)：与 ‘dynamic’、‘longrope’ 和 ‘llama3’ 一起使用。预训练期间使用的原始最大位置嵌入。attention_factor (float, 可选)：与 ‘yarn’ 和 ‘longrope’ 一起使用。应用于注意力计算的缩放因子。如果未指定，则默认为实现建议的值，使用 factor 字段推断建议值。beta_fast (float, 可选)：仅与 ‘yarn’ 一起使用。用于设置线性斜坡函数中外推（仅）边界的参数。如果未指定，则默认为 32。beta_slow (float, 可选)：仅与 ‘yarn’ 一起使用。用于设置线性斜坡函数中内插（仅）边界的参数。如果未指定，则默认为 1。short_factor (List[float], 可选)：仅与 ‘longrope’ 一起使用。应用于短上下文（< original_max_position_embeddings）的缩放因子。必须是长度与隐藏大小除以注意力头数除以 2 相同的数字列表。long_factor (List[float], 可选)：仅与 ‘longrope’ 一起使用。应用于长上下文（< original_max_position_embeddings）的缩放因子。必须是长度与隐藏大小除以注意力头数除以 2 相同的数字列表。low_freq_factor (float, 可选)：仅与 ‘llama3’ 一起使用。应用于 RoPE 低频分量的缩放因子。high_freq_factor (float, 可选)：仅与 ‘llama3’ 一起使用。应用于 RoPE 高频分量的缩放因子。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后一个键/值注意力（并非所有模型都使用）。
is_encoder_decoder (bool, 可选, 默认为 True) — 指示此模型是编码器-解码器架构的一部分。

这是用于存储 DiaDecoder 配置的配置类。它用于根据指定参数实例化 Dia 解码器，定义解码器架构。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

DiaEncoderConfig

class transformers.DiaEncoderConfig

< 来源 >

( max_position_embeddings: int = 1024 num_hidden_layers: int = 12 hidden_size: int = 1024 num_attention_heads: int = 16 num_key_value_heads: int = 16 head_dim: int = 128 intermediate_size: int = 4096 norm_eps: float = 1e-05 vocab_size: int = 256 hidden_act: str = 'silu' rope_theta: float = 10000.0 rope_scaling: typing.Optional[dict] = None initializer_range: float = 0.02 **kwargs )

参数

max_position_embeddings (int, 可选, 默认为 1024) — 此模型可能使用的最大序列长度。
num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。
hidden_size (int, 可选, 默认为 1024) — 编码器层和池化层（pooler layer）的维度。
num_attention_heads (int, 可选, 默认为 16) — Transformer 编码器中每个注意力层的注意力头数量。
num_key_value_heads (int, 可选, 默认为 16) — Transformer 编码器中每个注意力层的键和值头数量。
head_dim (int, 可选, 默认为 128) — 注意力头的维度。
intermediate_size (int, 可选, 默认为 4096) — Transformer 编码器中“中间”（通常称为前馈）层的维度。
norm_eps (float, 可选, 默认为 1e-05) — 归一化层使用的 epsilon 值。
vocab_size (int, 可选, 默认为 256) — Dia 模型的词汇量大小。定义了调用 DiaModel 时传入的 inputs_ids 可以表示的不同词元的数量。
hidden_act (str 或 function, 可选, 默认为 "silu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持 "gelu"、"relu"、"swish" 和 "gelu_new"。
rope_theta (float, 可选, 默认为 10000.0) — RoPE 嵌入的基础周期。
rope_scaling (dict, 可选) — 包含 RoPE 嵌入缩放配置的字典。注意：如果你应用了新的 RoPE 类型并且期望模型在更长的 max_position_embeddings 上工作，我们建议你相应地更新此值。预期内容：rope_type (str)：要使用的 RoPE 子变体。可以是 ['default', 'linear', 'dynamic', 'yarn', 'longrope', 'llama3'] 之一，其中 'default' 是原始的 RoPE 实现。factor (float, 可选)：除 'default' 外所有 RoPE 类型都使用。应用于 RoPE 嵌入的缩放因子。在大多数缩放类型中，因子 x 将使模型能够处理长度为 x * 原始最大预训练长度的序列。original_max_position_embeddings (int, 可选)：与 'dynamic'、'longrope' 和 'llama3' 一起使用。预训练期间使用的原始最大位置嵌入。attention_factor (float, 可选)：与 'yarn' 和 'longrope' 一起使用。应用于注意力计算的缩放因子。如果未指定，它将默认为实现推荐的值，使用 factor 字段推断建议值。beta_fast (float, 可选)：仅与 'yarn' 一起使用。设置线性斜坡函数中外推（仅）边界的参数。如果未指定，默认为 32。beta_slow (float, 可选)：仅与 'yarn' 一起使用。设置线性斜坡函数中插值（仅）边界的参数。如果未指定，默认为 1。short_factor (List[float], 可选)：仅与 'longrope' 一起使用。应用于短上下文（< original_max_position_embeddings）的缩放因子。必须是长度与隐藏大小除以注意力头数除以 2 相同的一系列数字。long_factor (List[float], 可选)：仅与 'longrope' 一起使用。应用于长上下文（< original_max_position_embeddings）的缩放因子。必须是长度与隐藏大小除以注意力头数除以 2 相同的一系列数字。low_freq_factor (float, 可选)：仅与 'llama3' 一起使用。应用于 RoPE 低频分量的缩放因子。high_freq_factor (float, 可选)：仅与 'llama3' 一起使用。应用于 RoPE 高频分量的缩放因子。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。

这是用于存储 DiaEncoder 配置的配置类。它根据指定的参数实例化一个 Dia 编码器，定义了编码器架构。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

DiaTokenizer

class transformers.DiaTokenizer

< source >

( pad_token: typing.Optional[str] = '<pad>' unk_token: typing.Optional[str] = '<pad>' max_length: typing.Optional[int] = 1024 offset: int = 0 **kwargs )

参数

pad_token (str, 可选, 默认为 "<pad>") — 用于填充的词元，例如在批处理不同长度的序列时。
unk_token (str, 可选, 默认为 "<pad>") — 未知词元。词汇表中没有的词元无法转换为 ID，而是设置为此词元。
max_length (int, 可选, 默认为 1024) — 编码时序列的最大长度。超过此长度的序列将被截断。
offset (int, 可选, 默认为 0) — 分词器的偏移量。

构建一个 Dia 分词器。除了特殊词元 [S1] 和 [S2] 外，Dia 只是简单地使用原始字节 utf-8 编码。

此分词器继承自 PreTrainedTokenizerFast，其中包含了大多数主要方法。用户应参阅此超类以获取有关这些方法的更多信息。

call

< source >

( text: typing.Union[str, list[str], list[list[str]], NoneType] = None text_pair: typing.Union[str, list[str], list[list[str]], NoneType] = None text_target: typing.Union[str, list[str], list[list[str]], NoneType] = None text_pair_target: typing.Union[str, list[str], list[list[str]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.tokenization_utils_base.TruncationStrategy, NoneType] = None max_length: typing.Optional[int] = None stride: int = 0 is_split_into_words: bool = False pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → BatchEncoding

参数

text (str, list[str], list[list[str]], 可选) — 要编码的序列或序列批次。每个序列可以是字符串或字符串列表（预分词字符串）。如果序列以字符串列表（预分词）形式提供，您必须设置 is_split_into_words=True（以消除与序列批次之间的歧义）。
text_pair (str, list[str], list[list[str]], 可选) — 要编码的序列或序列批次。每个序列可以是字符串或字符串列表（预分词字符串）。如果序列以字符串列表（预分词）形式提供，您必须设置 is_split_into_words=True（以消除与序列批次之间的歧义）。
text_target (str, list[str], list[list[str]], 可选) — 作为目标文本编码的序列或序列批次。每个序列可以是字符串或字符串列表（预分词字符串）。如果序列以字符串列表（预分词）形式提供，您必须设置 is_split_into_words=True（以消除与序列批次之间的歧义）。
text_pair_target (str, list[str], list[list[str]], 可选) — 作为目标文本编码的序列或序列批次。每个序列可以是字符串或字符串列表（预分词字符串）。如果序列以字符串列表（预分词）形式提供，您必须设置 is_split_into_words=True（以消除与序列批次之间的歧义）。
add_special_tokens (bool, 可选, 默认为 True) — 编码序列时是否添加特殊词元。这将使用底层的 PretrainedTokenizerBase.build_inputs_with_special_tokens 函数，该函数定义了哪些词元会自动添加到输入 ID 中。如果您想自动添加 bos 或 eos 词元，这会很有用。
padding (bool, str 或 PaddingStrategy, 可选, 默认为 False) — 激活和控制填充。接受以下值：
- True 或 'longest'：填充到批次中最长的序列（如果只提供一个序列，则不填充）。
- 'max_length'：填充到由参数 max_length 指定的最大长度，如果未提供该参数，则填充到模型的最大可接受输入长度。
- False 或 'do_not_pad' (默认)：不填充（即，可以输出具有不同长度序列的批次）。
truncation (bool, str 或 TruncationStrategy, 可选, 默认为 False) — 激活和控制截断。接受以下值：
- True 或 'longest_first'：截断到由参数 max_length 指定的最大长度，如果未提供该参数，则截断到模型的最大可接受输入长度。如果提供了一对序列（或一批对序列），这将逐个词元截断，从对中最长的序列中移除一个词元。
- 'only_first'：截断到由参数 max_length 指定的最大长度，如果未提供该参数，则截断到模型的最大可接受输入长度。如果提供了一对序列（或一批对序列），这将只截断一对中的第一个序列。
- 'only_second'：截断到由参数 max_length 指定的最大长度，如果未提供该参数，则截断到模型的最大可接受输入长度。如果提供了一对序列（或一批对序列），这将只截断一对中的第二个序列。
- False 或 'do_not_truncate' (默认)：不截断（即，可以输出序列长度大于模型最大可接受输入大小的批次）。
max_length (int, 可选) — 通过截断/填充参数之一控制要使用的最大长度。

如果未设置或设置为 None，这将使用预定义的模型最大长度（如果截断/填充参数之一需要最大长度）。如果模型没有特定的最大输入长度（如 XLNet），则截断/填充到最大长度将被禁用。
stride (int, 可选, 默认为 0) — 如果设置为一个数字并与 max_length 一起使用，当 return_overflowing_tokens=True 时返回的溢出词元将包含截断序列末尾的一些词元，以在截断序列和溢出序列之间提供一些重叠。此参数的值定义了重叠词元的数量。
is_split_into_words (bool, 可选, 默认为 False) — 输入是否已经预分词（例如，按单词分割）。如果设置为 True，分词器假定输入已按单词分割（例如，通过空格分割），然后会将其分词。这对于命名实体识别或词元分类很有用。
pad_to_multiple_of (int, 可选) — 如果设置，将序列填充到提供值的倍数。需要激活 padding。这对于在计算能力 >= 7.5 (Volta) 的 NVIDIA 硬件上启用 Tensor Cores 特别有用。
padding_side (str, 可选) — 模型应该应用填充的侧面。应在 ['right', 'left'] 之间选择。默认值取自同名的类属性。
return_tensors (str 或 TensorType, 可选) — 如果设置，将返回张量而不是 Python 整数列表。可接受的值为：
- 'tf'：返回 TensorFlow tf.constant 对象。
- 'pt'：返回 PyTorch torch.Tensor 对象。
- 'np'：返回 Numpy np.ndarray 对象。
return_token_type_ids (bool, 可选) — 是否返回词元类型 ID。如果保留默认值，将根据特定分词器的默认值（由 return_outputs 属性定义）返回词元类型 ID。

什么是词元类型 ID？
return_attention_mask (bool, 可选) — 是否返回注意力掩码。如果保留默认值，将根据特定分词器的默认值（由 return_outputs 属性定义）返回注意力掩码。

什么是注意力掩码？
return_overflowing_tokens (bool, 可选, 默认为 False) — 是否返回溢出词元序列。如果提供了输入 ID 的一对序列（或一批对序列）且 truncation_strategy = longest_first 或 True，则会引发错误，而不是返回溢出词元。
return_special_tokens_mask (bool, 可选, 默认为 False) — 是否返回特殊词元掩码信息。
return_offsets_mapping (bool, 可选, 默认为 False) — 是否返回每个词元的 (char_start, char_end)。

这仅在继承自 PreTrainedTokenizerFast 的快速分词器中可用，如果使用 Python 的分词器，此方法将引发 NotImplementedError。
return_length (bool, 可选, 默认为 False) — 是否返回编码输入的长度。
verbose (bool, 可选, 默认为 True) — 是否打印更多信息和警告。
**kwargs — 传递给 self.tokenize() 方法的参数

BatchEncoding

一个 BatchEncoding，包含以下字段：

input_ids — 要输入到模型中的标记 ID 列表。

什么是输入 ID？
token_type_ids — 要输入到模型中的标记类型 ID 列表（当 return_token_type_ids=True 或如果 *“token_type_ids”* 在 self.model_input_names 中时）。

什么是标记类型 ID？
attention_mask — 指定模型应关注哪些标记的索引列表（当 return_attention_mask=True 或如果 *“attention_mask”* 在 self.model_input_names 中时）。

什么是注意力掩码？
overflowing_tokens — 溢出标记序列列表（当指定 max_length 且 return_overflowing_tokens=True 时）。
num_truncated_tokens — 截断标记的数量（当指定 max_length 且 return_overflowing_tokens=True 时）。
special_tokens_mask — 0 和 1 的列表，其中 1 表示添加的特殊标记，0 表示常规序列标记（当 add_special_tokens=True 且 return_special_tokens_mask=True 时）。
length — 输入的长度（当 return_length=True 时）

将一个或多个序列或一对或多对序列标记化并准备用于模型的主要方法。

DiaFeatureExtractor

class transformers.DiaFeatureExtractor

< source >

( feature_size: int = 1 sampling_rate: int = 16000 padding_value: float = 0.0 hop_length: int = 512 **kwargs )

参数

feature_size (int, 可选, 默认为 1) — 提取特征的特征维度。单声道音频使用 1，立体声音频使用 2。
sampling_rate (int, 可选, 默认为 16000) — 音频波形数字化时的采样率，以赫兹 (Hz) 为单位。
padding_value (float, 可选, 默认为 0.0) — 用于填充的值。
hop_length (int, 可选, 默认为 512) — 连续窗口之间的重叠长度。

构建一个 Dia 特征提取器。

此特征提取器继承自 SequenceFeatureExtractor，其中包含了大多数主要方法。用户应参阅此超类以获取有关这些方法的更多信息。

call

< source >

( raw_audio: typing.Union[numpy.ndarray, list[float], list[numpy.ndarray], list[list[float]]] padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy, NoneType] = None truncation: typing.Optional[bool] = False max_length: typing.Optional[int] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None sampling_rate: typing.Optional[int] = None )

参数

raw_audio (np.ndarray, list[float], list[np.ndarray], list[list[float]]) — 要处理的序列或序列批次。每个序列可以是 NumPy 数组、浮点值列表、NumPy 数组列表或浮点值列表的列表。NumPy 数组的形状必须为 (num_samples,)（单声道音频，feature_size = 1）或 (2, num_samples)（立体声音频，feature_size = 2）。
padding (bool, str 或 PaddingStrategy, 可选, 默认为 True) — 在返回序列中选择一种填充策略（根据模型的填充侧和填充索引）：
- True 或 'longest'：填充到批次中最长的序列（如果只提供一个序列，则不填充）。
- 'max_length'：填充到由参数 max_length 指定的最大长度，如果未提供该参数，则填充到模型的最大可接受输入长度。
- False 或 'do_not_pad' (默认)：不填充（即，可以输出具有不同长度序列的批次）。
truncation (bool, optional, 默认为 False) — 启用截断，将长度超过 max_length 的输入序列截断为 max_length。
max_length (int, optional) — 返回列表的最大长度和可选的填充长度（见上文）。
return_tensors (str 或 TensorType, optional, 默认为 'pt') — 如果设置，将返回张量而不是 Python 整数列表。可接受的值为：
- 'tf': 返回 TensorFlow tf.constant 对象。
- 'pt': 返回 PyTorch torch.Tensor 对象。
- 'np': 返回 Numpy np.ndarray 对象。
sampling_rate (int, optional) — audio 输入的采样率。强烈建议在转发调用时传递 sampling_rate 以防止静默错误。

对一个或多个序列进行特征化并为模型准备的主方法。

DiaProcessor

class transformers.DiaProcessor

< source >

( feature_extractor tokenizer audio_tokenizer )

参数

feature_extractor (DiaFeatureExtractor) — DiaFeatureExtractor 的实例。特征提取器是必需的输入。
tokenizer (DiaTokenizer) — DiaTokenizer 的实例。分词器是必需的输入。
audio_tokenizer (DacModel) — DacModel 的实例，用于将音频编码/解码为码本。这是必需的输入。

构建一个 Dia 处理器，它将 DiaFeatureExtractor、DiaTokenizer 和 DacModel 包装成一个单一的处理器。它继承了音频特征提取、分词器和音频编码/解码功能。有关更多信息，请参阅 call()、~DiaProcessor.encode 和 decode()。

call

< source >

( text: typing.Union[str, list[str]] audio: typing.Union[numpy.ndarray, ForwardRef('torch.Tensor'), list[numpy.ndarray], tuple[numpy.ndarray], list['torch.Tensor'], tuple['torch.Tensor'], NoneType] = None output_labels: typing.Optional[bool] = False **kwargs: typing_extensions.Unpack[transformers.models.dia.processing_dia.DiaProcessorKwargs] )

准备文本和音频以作为模型输入的主要方法。audio 参数转发至 DiaFeatureExtractor 的 call()，并随后转发至 DacModel 的 encode()。text 参数转发至 call()。有关更多信息，请参阅上述方法的文档字符串。

batch_decode

< source >

( decoder_input_ids: torch.Tensor audio_prompt_len: typing.Optional[int] = None **kwargs: typing_extensions.Unpack[transformers.models.dia.processing_dia.DiaProcessorKwargs] )

参数

decoder_input_ids (torch.Tensor) — 解码器的完整输出序列。
audio_prompt_len (int) — 音频前缀长度（例如，当使用语音克隆时）。

通过 audio_tokenizer 将一批音频码本序列解码为相应的音频波形。有关更多信息，请参阅 decode()。

decode

< source >

( decoder_input_ids: torch.Tensor audio_prompt_len: typing.Optional[int] = None **kwargs: typing_extensions.Unpack[transformers.models.dia.processing_dia.DiaProcessorKwargs] )

通过 audio_tokenizer 将单个音频码本序列解码为相应的音频波形。有关更多信息，请参阅 decode() 和 batch_decode()。

DiaModel

class transformers.DiaModel

< source >

( config: DiaConfig )

参数

config (DiaConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

Dia 模型只输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝头部等）。

此模型也是 PyTorch torch.nn.Module 子类。请将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档中所有与通用用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_position_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Union[transformers.modeling_outputs.BaseModelOutput, tuple, NoneType] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None **kwargs ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 词汇表中输入序列 token 的索引。填充默认会被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 掩码，用于避免对填充 token 索引执行注意力。掩码值选择在 [0, 1]：
- 1 表示 未被掩码 的 token，
- 0 表示 被掩码 的 token。
什么是注意力掩码？
decoder_input_ids (torch.LongTensor，形状为 `(batch_size * num_codebooks, target_sequence_length) —
或 (batch_size, target_sequence_length, num_codebooks)，可选) —
1. (batch_size * num_codebooks, target_sequence_length): 对应于音频输入码本被展平到批处理维度的通用用例。这也与用于计算损失的展平音频 logits 对齐。
2. (batch_size, sequence_length, num_codebooks): 对应于 Dia 内部用于更高效计算嵌入和后续步骤的形状。
如果未提供 decoder_input_ids，它将创建一个形状为 (batch_size, 1, num_codebooks) 的 bos_token_id 张量。索引可以使用 DiaProcessor 获取。有关详细信息，请参阅 DiaProcessor.call()。

什么是解码器输入 ID？
decoder_position_ids (torch.LongTensor，形状为 (batch_size, target_sequence_length)) — 每个输入序列 token 在位置嵌入中的位置索引。用于计算直到 config.decoder_config.max_position_embeddings 的位置嵌入。

什么是位置 ID？
decoder_attention_mask (torch.LongTensor，形状为 (batch_size, target_sequence_length)，可选) — 掩码，用于避免对某些 token 索引执行注意力。默认情况下，将使用因果掩码，以确保模型只能查看以前的输入以预测未来。
encoder_outputs (Union[~modeling_outputs.BaseModelOutput, tuple, NoneType]) — 元组包含 (last_hidden_state, 可选: hidden_states, 可选: attentions) last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)，可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
past_key_values (~cache_utils.EncoderDecoderCache, 可选) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。这通常包括模型在解码上一阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为旧版缓存格式。
模型将输出与输入相同的缓存格式。如果未传递 past_key_values，将返回旧版缓存格式。

如果使用 past_key_values，用户可以选择仅输入形状为 (batch_size, 1) 的最新 input_ids（那些未将其过去键值状态提供给此模型的）而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关详细信息，请参阅返回张量下的 hidden_states。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 表示输入序列 token 在序列中位置的索引。与 position_ids 不同，此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。

transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含各种元素，具体取决于配置（None）和输入。

last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)) — 模型解码器最后一层输出的隐藏状态序列。

如果使用了 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (EncoderDecoderCache, 可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 它是 EncoderDecoderCache 实例。有关详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型有嵌入层，则一个用于嵌入输出，加上一个用于每一层的输出），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每个层输出的隐藏状态，加上可选的初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每一层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每一层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型有嵌入层，则一个用于嵌入输出，加上一个用于每一层的输出），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每个层输出的隐藏状态，加上可选的初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每一层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。

DiaModel 的 forward 方法，覆盖了 __call__ 特殊方法。

尽管前向传播的实现需要在该函数内部定义，但之后应调用 Module 实例而不是此函数，因为前者会处理运行预处理和后处理步骤，而后者会默默忽略它们。

DiaForConditionalGeneration

class transformers.DiaForConditionalGeneration

< source >

( config: DiaConfig )

参数

config (DiaConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

Dia 模型由一个（字节）文本编码器和音频解码器组成，顶部带有一个预测头。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝头部等）。

此模型也是 PyTorch torch.nn.Module 子类。请将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档中所有与通用用法和行为相关的事项。

forward

< source >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.LongTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_position_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None encoder_outputs: typing.Union[transformers.modeling_outputs.BaseModelOutput, tuple, NoneType] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None labels: typing.Optional[torch.LongTensor] = None cache_position: typing.Optional[torch.LongTensor] = None **kwargs ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 词汇表中输入序列 token 的索引。填充默认会被忽略。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 掩码，用于避免对填充 token 索引执行注意力。掩码值选择在 [0, 1]：
- 1 表示 未被掩码 的 token，
- 0 表示 被掩码 的 token。
什么是注意力掩码？
decoder_input_ids (torch.LongTensor，形状为 `(batch_size * num_codebooks, target_sequence_length) —
或 (batch_size, target_sequence_length, num_codebooks)，可选) —
1. (batch_size * num_codebooks, target_sequence_length): 对应于音频输入码本被展平到批处理维度的通用用例。这也与用于计算损失的展平音频 logits 对齐。
2. (batch_size, sequence_length, num_codebooks): 对应于 Dia 内部用于更高效计算嵌入和后续步骤的形状。
如果未提供 decoder_input_ids，它将创建一个形状为 (batch_size, 1, num_codebooks) 的 bos_token_id 张量。索引可以使用 DiaProcessor 获取。有关详细信息，请参阅 DiaProcessor.call()。

什么是解码器输入 ID？
decoder_position_ids (torch.LongTensor，形状为 (batch_size, target_sequence_length)) — 每个输入序列 token 在位置嵌入中的位置索引。用于计算直到 config.decoder_config.max_position_embeddings 的位置嵌入。

什么是位置 ID？
decoder_attention_mask (torch.LongTensor 形状为 (batch_size, target_sequence_length), 可选) — 用于避免在某些 token 索引上执行注意力操作的掩码。默认情况下，将使用因果掩码，以确保模型只能查看先前的输入，从而预测未来。
encoder_outputs (Union[~modeling_outputs.BaseModelOutput, tuple, NoneType]) — 元组包含 (last_hidden_state, 可选: hidden_states, 可选: attentions) last_hidden_state 形状为 (batch_size, sequence_length, hidden_size), 可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
past_key_values (~cache_utils.EncoderDecoderCache, 可选) — 预计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。这通常包括模型在解码上一阶段返回的 past_key_values，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- Cache 实例，请参阅我们的 kv 缓存指南；
- tuple(torch.FloatTensor) 的元组，长度为 config.n_layers，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也被称为传统缓存格式。
模型将输出与输入相同的缓存格式。如果未传入 past_key_values，则将返回传统缓存格式。

如果使用 past_key_values，用户可以选择只输入形状为 (batch_size, 1) 的最后一个 input_ids（那些没有将过去键值状态提供给此模型的输入），而不是形状为 (batch_size, sequence_length) 的所有 input_ids。
use_cache (bool, 可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（请参阅 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的 hidden_states。
labels (torch.LongTensor 形状为 (batch_size * num_codebooks,), 可选) — 用于计算掩码语言模型损失的标签。索引应在 [0, ..., config.decoder_config.vocab_size - 1] 或 -100 之间。索引设置为 -100 的 token 将被忽略（掩码）。
cache_position (torch.LongTensor 形状为 (sequence_length), 可选) — 表示输入序列中 token 位置的索引。与 position_ids 不同，此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 元组（如果传入 return_dict=False 或 config.return_dict=False），包含根据配置 (None) 和输入而定的各种元素。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 语言建模损失。
logits (形状为 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 语言建模头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
past_key_values (EncoderDecoderCache, 可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 它是 EncoderDecoderCache 实例。有关详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型有嵌入层，则一个用于嵌入输出，加上一个用于每一层的输出），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出时的隐藏状态以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每一层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每一层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（如果模型有嵌入层，则一个用于嵌入输出，加上一个用于每一层的输出），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出时的隐藏状态以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每一层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。

DiaForConditionalGeneration 前向方法，覆盖 __call__ 特殊方法。

生成

< 来源 >

( inputs: typing.Optional[torch.Tensor] = None generation_config: typing.Optional[transformers.generation.configuration_utils.GenerationConfig] = None logits_processor: typing.Optional[transformers.generation.logits_process.LogitsProcessorList] = None stopping_criteria: typing.Optional[transformers.generation.stopping_criteria.StoppingCriteriaList] = None prefix_allowed_tokens_fn: typing.Optional[typing.Callable[[int, torch.Tensor], list[int]]] = None synced_gpus: typing.Optional[bool] = None assistant_model: typing.Optional[ForwardRef('PreTrainedModel')] = None streamer: typing.Optional[ForwardRef('BaseStreamer')] = None negative_prompt_ids: typing.Optional[torch.Tensor] = None negative_prompt_attention_mask: typing.Optional[torch.Tensor] = None use_model_defaults: typing.Optional[bool] = None custom_generate: typing.Optional[str] = None **kwargs )

< > 在 GitHub 上更新

Transformers

Dia

概述

使用技巧

文本生成

文本和音频生成（语音克隆）

训练

DiaConfig

class transformers.DiaConfig

get_text_config

DiaDecoderConfig

class transformers.DiaDecoderConfig

DiaEncoderConfig

class transformers.DiaEncoderConfig

DiaTokenizer

class transformers.DiaTokenizer

__call__

DiaFeatureExtractor

class transformers.DiaFeatureExtractor

__call__

DiaProcessor

class transformers.DiaProcessor

__call__

batch_decode

decode

DiaModel

class transformers.DiaModel

forward

DiaForConditionalGeneration

class transformers.DiaForConditionalGeneration

forward

生成

call

call

call