VQDiffusionScheduler
VQDiffusionScheduler
将 Transformer 模型的输出转换为先前扩散时间步长中未加噪图像的样本。它在顾舒阳、陈东、鲍建民、温芳、张博、陈东东、袁路、郭培宁的用于文本到图像合成的矢量量化扩散模型中提出。
论文摘要如下:
我们提出了用于文本到图像生成的矢量量化扩散(VQ-Diffusion)模型。该方法基于矢量量化变分自动编码器(VQ-VAE),其潜在空间由最近开发的去噪扩散概率模型(DDPM)的条件变体建模。我们发现这种潜在空间方法非常适合文本到图像生成任务,因为它不仅消除了现有方法的单向偏差,而且允许我们结合掩码和替换扩散策略以避免错误累积,这是现有方法的一个严重问题。我们的实验表明,与参数数量相似的传统自回归(AR)模型相比,VQ-Diffusion 产生了明显更好的文本到图像生成结果。与之前的基于 GAN 的文本到图像方法相比,我们的 VQ-Diffusion 可以处理更复杂的场景,并大幅提高合成图像质量。最后,我们表明,通过重新参数化,可以使我们方法中的图像生成计算效率极高。使用传统的 AR 方法,文本到图像生成时间会随着输出图像分辨率线性增加,因此即使对于普通尺寸的图像也相当耗时。VQ-Diffusion 允许我们在质量和速度之间取得更好的平衡。我们的实验表明,带有重新参数化的 VQ-Diffusion 模型比传统的 AR 方法快 15 倍,同时实现了更好的图像质量。
VQDiffusionScheduler
类 diffusers.VQDiffusionScheduler
< 源代码 >( num_vec_classes: int num_train_timesteps: int = 100 alpha_cum_start: float = 0.99999 alpha_cum_end: float = 9e-06 gamma_cum_start: float = 9e-06 gamma_cum_end: float = 0.99999 )
参数
- num_vec_classes (
int
) — 潜在像素的向量嵌入的类别数。包括掩码潜在像素的类别。 - num_train_timesteps (
int
,默认为 100) — 训练模型的扩散步数。 - alpha_cum_start (
float
,默认为 0.99999) — 开始的累积 alpha 值。 - alpha_cum_end (
float
,默认为 0.00009) — 结束的累积 alpha 值。 - gamma_cum_start (
float
,默认为 0.00009) — 开始的累积 gamma 值。 - gamma_cum_end (
float
,默认为 0.99999) — 结束的累积 gamma 值。
向量量化扩散的调度器。
此模型继承自 SchedulerMixin 和 ConfigMixin。请查看超类文档以了解库为所有调度器实现的通用方法,例如加载和保存。
log_Q_t_transitioning_to_known_class
< 源代码 >( t: torch.int32 x_t: LongTensor log_onehot_x_t: Tensor cumulative: bool ) → torch.Tensor
形状为 (batch size, num classes - 1, num latent pixels)
参数
- t (
torch.Long
) — 确定使用哪个转移矩阵的时间步长。 - x_t (
torch.LongTensor
形状为(batch size, num latent pixels)
) — 时间t
时每个潜在像素的类别。
返回
形状为 (batch size, num classes - 1, num latent pixels)
的 torch.Tensor
返回矩阵的每一列都是完整概率转移矩阵的一行的对数概率。
当不累积时,返回 self.num_classes - 1
行,因为初始潜在像素不能被掩盖。
其中
q_n
是第n
个潜在像素前向过程的概率分布。- C_0 是潜在像素嵌入的一个类别
- C_k 是被掩盖的潜在像素的类别
非累积结果(省略对数)
累积结果(省略对数)
计算 x_t
中每个潜在像素的(累积或非累积)转移矩阵中的行的对数概率。
q_posterior
< 源代码 > ( log_p_x_0 x_t t ) → 形状为 (batch size, num classes, num latent pixels)
的 torch.Tensor
参数
- log_p_x_0 (
torch.Tensor
形状为(batch size, num classes - 1, num latent pixels)
) — 初始潜在像素的预测类别的对数概率。不包括被掩盖类别的预测,因为初始未加噪声的图像不能被掩盖。 - x_t (
torch.LongTensor
形状为(batch size, num latent pixels)
) — 时间t
时每个潜在像素的类别。 - t (
torch.Long
) — 确定使用哪个转移矩阵的时间步长。
返回
形状为 (batch size, num classes, num latent pixels)
的 torch.Tensor
时间步长 t-1
时图像的预测类别的对数概率。
set_timesteps
< 源代码 > ( num_inference_steps: int device: Union = None )
设置用于扩散链的离散时间步长(在推理之前运行)。
step
< 源代码 > ( model_output: 张量 timestep: torch.int64 sample: LongTensor generator: 可选 = None return_dict: bool = True ) → VQDiffusionSchedulerOutput 或 元组
参数
- t (
torch.long
) — 用于确定使用哪个转换矩阵的时间步长。 - x_t (
torch.LongTensor
形状为(批大小, 潜在像素数)
) — 时间t
时每个潜在像素的类别。 - generator (
torch.Generator
或None
) — 应用于p(x_{t-1} | x_t)
的噪声的随机数生成器,在从中采样之前。 - return_dict (
bool
, 可选, 默认为True
) — 是否返回 VQDiffusionSchedulerOutput 或元组
。
返回
如果 return_dict 为 True
,则返回 VQDiffusionSchedulerOutput,否则返回一个元组,其中第一个元素是样本张量。
通过反向转移分布预测前一时间步的样本。有关如何计算分布的更多详细信息,请参阅 q_posterior()。
VQDiffusionSchedulerOutput
类 diffusers.schedulers.scheduling_vq_diffusion.VQDiffusionSchedulerOutput
< 源代码 >( prev_sample: LongTensor )
调度程序的步长函数输出的输出类。