AutoencoderOobleck
带 KL 损失的 Oobleck 变分自动编码器(VAE)模型在 Stability-AI/stable-audio-tools和Stability AI 的Stable Audio Open中被推出。该模型在 🤗 Diffusers 中用于将音频波形编码成潜变量并解码潜变量表示成音频波形。
论文摘要为
开放生成模型对社区至关重要,它允许在展示新模型时进行微调并作为基线。但是,当前大多数文本转音频模型都是私有的,艺术家和研究人员无法对其进行构建。在此,我们描述了一个新的开放权重文本到音频模型的架构和训练流程,该模型使用 Creative Commons 数据进行训练。我们的评估表明,该模型在各种指标上的性能与最先进水平相当。值得注意的是,报告的 FDopenl3 结果(衡量生成的真实性)展示了其以 44.1kHz 合成高质量立体声音频的潜力。
AutoencoderOobleck
类 diffusers.AutoencoderOobleck
< 源 >( encoder_hidden_size = 128 downsampling_ratios = [2, 4, 4, 8, 8] channel_multiples = [1, 2, 4, 8, 16] decoder_channels = 128 decoder_input_channels = 64 audio_channels = 2 sampling_rate = 441
一个将波形编码为潜在变量并将潜在表示解码为波形的自动编码器。首次引入 Stable Audio。
此模型继承自 ModelMixin。查看超类文档,了解为所有模型(例如下载或保存)实现的通用方法。
禁用分片 VAE 解码。如果之前启用了 enable_slicing
,则此方法将返回计算解码到一个步骤。
启用切分 VAE 解码。当启用此选项时,VAE 将输入张量分割为切片,以分多步计算解码。这有助于节省一些内存,并允许更大的批次大小。
向前
< 源代码 > ( 示例: 张量 后验样本: bool = False 返回词典: bool = True 生成器: 可选 = None )