Diffusers 文档

ScoreSdeVeScheduler

Diffusers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

ScoreSdeVeScheduler

ScoreSdeVeScheduler 是一个方差爆炸随机微分方程 (SDE) 调度器。它由 Yang Song、Jascha Sohl-Dickstein、Diederik P. Kingma、Abhishek Kumar、Stefano Ermon、Ben Poole 在论文 Score-Based Generative Modeling through Stochastic Differential Equations 中提出。

论文摘要如下：

从数据生成噪声很容易；从噪声生成数据是生成建模。我们提出了一种随机微分方程（SDE），它通过缓慢注入噪声将复杂数据分布平滑地转换为已知先验分布，以及一个相应的反向 SDE，它通过缓慢去除噪声将先验分布转换回数据分布。关键是，反向 SDE 仅取决于扰动数据分布的时间相关梯度场（即分数）。通过利用基于分数的生成建模的进展，我们可以使用神经网络准确估计这些分数，并使用数值 SDE 求解器生成样本。我们表明，这个框架包含了以前基于分数的生成建模和扩散概率建模的方法，允许新的采样过程和新的建模能力。特别是，我们引入了一个预测器-校正器框架来纠正离散反向 SDE 演化中的错误。我们还推导出了一个等价的神经 ODE，它从与 SDE 相同的分布中采样，但此外还支持精确的似然计算和改进的采样效率。此外，我们提供了一种使用基于分数模型解决逆问题的新方法，正如类条件生成、图像修复和着色实验所证明的那样。结合多项架构改进，我们在 CIFAR-10 上实现了无条件图像生成的破纪录性能，Inception 分数为 9.89，FID 为 2.20，有竞争力的似然为 2.99 bits/dim，并首次从基于分数的生成模型中展示了 1024 x 1024 图像的高保真生成。

ScoreSdeVeScheduler

class diffusers.ScoreSdeVeScheduler

< 来源 >

( num_train_timesteps: int = 2000 snr: float = 0.15 sigma_min: float = 0.01 sigma_max: float = 1348.0 sampling_eps: float = 1e-05 correct_steps: int = 1 )

参数

num_train_timesteps (int, 默认为 1000) — 用于训练模型的扩散步数。
snr (float, 默认为 0.15) — 一个系数，用于加权从 model_output 样本（来自网络）到随机噪声的步长。
sigma_min (float, 默认为 0.01) — 采样过程中 sigma 序列的初始噪声尺度。最小 sigma 应反映数据的分布。
sigma_max (float, 默认为 1348.0) — 传递给模型的连续时间步长范围的最大值。
sampling_eps (float, 默认为 1e-5) — 采样结束值，其中时间步长从 1 逐渐减小到 epsilon。
correct_steps (int, 默认为 1) — 对生成的样本执行的校正步数。

ScoreSdeVeScheduler 是一个方差爆炸随机微分方程 (SDE) 调度器。

此模型继承自 SchedulerMixin 和 ConfigMixin。有关库为所有调度器实现的通用方法（如加载和保存），请参阅超类文档。

scale_model_input

< 源 >

( sample: Tensor timestep: typing.Optional[int] = None ) → torch.Tensor

参数

sample (torch.Tensor) — 输入样本。
timestep (int, 可选) — 扩散链中的当前时间步。

torch.Tensor

一个缩放后的输入样本。

确保与需要根据当前时间步缩放去噪模型输入的调度器互换使用。

set_sigmas

< 源 >

( num_inference_steps: int sigma_min: float = None sigma_max: float = None sampling_eps: float = None )

参数

num_inference_steps (int) — 使用预训练模型生成样本时使用的扩散步数。
sigma_min (float, 可选) — 初始噪声尺度值（覆盖调度器实例化时给定的值）。
sigma_max (float, 可选) — 最终噪声尺度值（覆盖调度器实例化时给定的值）。
sampling_eps (float, 可选) — 最终时间步值（覆盖调度器实例化时给定的值）。

设置扩散链使用的噪声尺度（在推理之前运行）。sigma 控制样本更新的 drift 和 diffusion 分量的权重。

set_timesteps

< 源 >

( num_inference_steps: int sampling_eps: float = None device: typing.Union[str, torch.device] = None )

参数

num_inference_steps (int) — 使用预训练模型生成样本时使用的扩散步数。
sampling_eps (float, 可选) — 最终时间步值（覆盖调度器实例化时给定的值）。
device (str 或 torch.device, 可选) — 时间步长应移动到的设备。如果为 None，则时间步长不会移动。

设置扩散链使用的连续时间步（在推理之前运行）。

step_correct

< 源 >

( model_output: Tensor sample: Tensor generator: typing.Optional[torch._C.Generator] = None return_dict: bool = True ) → SdeVeOutput 或 tuple

参数

model_output (torch.Tensor) — 从学习到的扩散模型直接输出。
sample (torch.Tensor) — 扩散过程创建的样本的当前实例。
generator (torch.Generator, 可选) — 随机数生成器。
return_dict (bool, 可选, 默认为 True) — 是否返回 SdeVeOutput 或 tuple。

SdeVeOutput 或 tuple

如果 return_dict 为 True，则返回 SdeVeOutput，否则返回一个元组，其中第一个元素是样本张量。

根据网络的 model_output 校正预测样本。这通常在对前一个时间步进行预测后重复运行。

step_pred

< 源 >

( model_output: Tensor timestep: int sample: Tensor generator: typing.Optional[torch._C.Generator] = None return_dict: bool = True ) → SdeVeOutput 或 tuple

参数

model_output (torch.Tensor) — 从学习到的扩散模型直接输出。
timestep (int) — 扩散链中的当前离散时间步。
sample (torch.Tensor) — 扩散过程创建的样本的当前实例。
generator (torch.Generator, 可选) — 随机数生成器。
return_dict (bool, 可选, 默认为 True) — 是否返回 SdeVeOutput 或 tuple。

SdeVeOutput 或 tuple

如果 return_dict 为 True，则返回 SdeVeOutput，否则返回一个元组，其中第一个元素是样本张量。

通过逆转 SDE 预测前一个时间步的样本。此函数从学习到的模型输出（通常是预测的噪声）传播扩散过程。

SdeVeOutput

class diffusers.schedulers.scheduling_sde_ve.SdeVeOutput

< source >

( prev_sample: Tensor prev_sample_mean: Tensor )

参数

prev_sample (torch.Tensor，形状为图像的 (batch_size, num_channels, height, width)) — 上一个时间步计算的样本 (x_{t-1})。prev_sample 应作为去噪循环中的下一个模型输入。
prev_sample_mean (torch.Tensor，形状为图像的 (batch_size, num_channels, height, width)) — 在先前时间步上取平均的 prev_sample。

调度器 step 函数输出的输出类。

< > 在 GitHub 上更新

←RePaintScheduler ScoreSdeVpScheduler→