Diffusers文档

AutoencoderOobleck

Hugging Face's logo
加入拥抱社区

并访问扩充的文档体验

开始

AutoencoderOobleck

带 KL 损失的 Oobleck 变分自动编码器(VAE)模型在 Stability-AI/stable-audio-tools和Stability AI 的Stable Audio Open中被推出。该模型在 🤗 Diffusers 中用于将音频波形编码成潜变量并解码潜变量表示成音频波形。

论文摘要为

开放生成模型对社区至关重要,它允许在展示新模型时进行微调并作为基线。但是,当前大多数文本转音频模型都是私有的,艺术家和研究人员无法对其进行构建。在此,我们描述了一个新的开放权重文本到音频模型的架构和训练流程,该模型使用 Creative Commons 数据进行训练。我们的评估表明,该模型在各种指标上的性能与最先进水平相当。值得注意的是,报告的 FDopenl3 结果(衡量生成的真实性)展示了其以 44.1kHz 合成高质量立体声音频的潜力。

AutoencoderOobleck

diffusers.AutoencoderOobleck

< >

( encoder_hidden_size = 128 downsampling_ratios = [2, 4, 4, 8, 8] channel_multiples = [1, 2, 4, 8, 16] decoder_channels = 128 decoder_input_channels = 64 audio_channels = 2 sampling_rate = 441

参数

  • encoder_hidden_size (int, 可选值,默认为 128) — 编码器的中间表示维度。
  • downsampling_ratios (List[int], 可选值,默认为 [2, 4, 4, 8, 8]) — 编码器中下采样的比率。它们按照相反的顺序用于解码器中的上采样。
  • decoder_channelsint可选,默认为 128)- 解码器的中间表示维度。
  • decoder_input_channelsint可选,默认为 64)- 解码器的输入维度。对应于潜在维度。
  • sampling_rate (int, 可选,默认为 44100) — 音频波形数字化表达采样率,单位为赫兹 (Hz)。

一个将波形编码为潜在变量并将潜在表示解码为波形的自动编码器。首次引入 Stable Audio。

此模型继承自 ModelMixin。查看超类文档,了解为所有模型(例如下载或保存)实现的通用方法。

包装器

< >

( *args **kwargs )

包装器

< >

( *args **kwargs )

disable_slicing

< >

( )

禁用分片 VAE 解码。如果之前启用了 enable_slicing,则此方法将返回计算解码到一个步骤。

enable_slicing

< >

( )

启用切分 VAE 解码。当启用此选项时,VAE 将输入张量分割为切片,以分多步计算解码。这有助于节省一些内存,并允许更大的批次大小。

向前

< >

( 示例: 张量 后验样本: bool = False 返回词典: bool = True 生成器: 可选 = None )

参数

  • sample (torch.Tensor) — 输入样本。
  • sample_posterior (bool, 可选, 默认为 False) — 是否从后验中采样。
  • OobleckDecoderOutput

    diffusers.models.autoencoders.autoencoder_oobleck.OobleckDecoderOutput

    < >

    sample: 张量 )

    参数

    • sample (torch.Tensor 形状为 (batch_size, audio_channels, sequence_length)) — 从模型最后一层的解码输出样本。

    解码方法的输出。

    OobleckDecoderOutput

    diffusers.models.autoencoders.autoencoder_oobleck.OobleckDecoderOutput

    < >

    sample: 张量 )

    参数

    • sample (torch.Tensor 形状为 (batch_size, audio_channels, sequence_length)) — 从模型最后一层的解码输出样本。

    解码方法的输出。

    AutoencoderOobleckOutput

    diffusers.models.autoencoders.autoencoder_oobleck.AutoencoderOobleckOutput

    < >

    ( latent_dist: OobleckDiagonalGaussianDistribution )

    参数

    • latent_dist (OobleckDiagonalGaussianDistribution) — Encoder 的编码输出,表示为 OobleckDiagonalGaussianDistribution 的均值和标准差。OobleckDiagonalGaussianDistribution 允许从分布中采样潜在变量。

    AutoencoderOobleck 编码方法的输出。

    < > 在 GitHub 上更新