Diffusers 文档
FlowMatchEulerDiscreteScheduler
并获得增强的文档体验
开始使用
FlowMatchEulerDiscreteScheduler
FlowMatchEulerDiscreteScheduler
是基于 Stable Diffusion 3 中引入的流匹配采样方法。
FlowMatchEulerDiscreteScheduler
类 diffusers.FlowMatchEulerDiscreteScheduler
< 来源 >( num_train_timesteps: int = 1000 shift: float = 1.0 use_dynamic_shifting: bool = False base_shift: typing.Optional[float] = 0.5 max_shift: typing.Optional[float] = 1.15 base_image_seq_len: typing.Optional[int] = 256 max_image_seq_len: typing.Optional[int] = 4096 invert_sigmas: bool = False shift_terminal: typing.Optional[float] = None use_karras_sigmas: typing.Optional[bool] = False use_exponential_sigmas: typing.Optional[bool] = False use_beta_sigmas: typing.Optional[bool] = False time_shift_type: str = 'exponential' stochastic_sampling: bool = False )
参数
- num_train_timesteps (
int
, 默认为 1000) — 用于训练模型的扩散步数。 - shift (
float
, 默认为 1.0) — 时间步调度表的偏移值。 - use_dynamic_shifting (
bool
, 默认为 False) — 是否根据图像分辨率动态应用时间步偏移。 - base_shift (
float
, 默认为 0.5) — 用于稳定图像生成的值。增加base_shift
可减少变化,使图像与期望输出更一致。 - max_shift (
float
, 默认为 1.15) — 潜在向量允许的变化值。增加max_shift
鼓励更多变化,图像可能更夸张或风格化。 - base_image_seq_len (
int
, 默认为 256) — 基础图像序列长度。 - max_image_seq_len (
int
, 默认为 4096) — 最大图像序列长度。 - invert_sigmas (
bool
, 默认为 False) — 是否反转 sigma。 - shift_terminal (
float
, 默认为 None) — 偏移时间步调度表的结束值。 - use_karras_sigmas (
bool
, 默认为 False) — 在采样期间是否使用 Karras sigma 作为噪声调度中的步长。 - use_exponential_sigmas (
bool
, 默认为 False) — 在采样期间是否使用指数 sigma 作为噪声调度中的步长。 - use_beta_sigmas (
bool
, 默认为 False) — 在采样期间是否使用 beta sigma 作为噪声调度中的步长。 - time_shift_type (
str
, 默认为 “exponential”) — 要应用的动态分辨率相关时间步偏移的类型。可以是 “exponential” 或 “linear”。 - stochastic_sampling (
bool
, 默认为 False) — 是否使用随机采样。
欧拉调度器。
此模型继承自 SchedulerMixin 和 ConfigMixin。查看超类文档以了解库为所有调度器实现的通用方法,例如加载和保存。
scale_noise
< 来源 >( sample: FloatTensor timestep: typing.Union[float, torch.FloatTensor] noise: typing.Optional[torch.FloatTensor] = None ) → torch.FloatTensor
流匹配中的正向过程
设置调度器的起始索引。此函数应在推理之前从管道中运行。
set_timesteps
< 来源 >( num_inference_steps: typing.Optional[int] = None device: typing.Union[str, torch.device] = None sigmas: typing.Optional[typing.List[float]] = None mu: typing.Optional[float] = None timesteps: typing.Optional[typing.List[float]] = None )
参数
- num_inference_steps (
int
, 可选) — 使用预训练模型生成样本时使用的扩散步数。 - device (
str
或torch.device
, 可选) — 时间步应移动到的设备。如果为None
,则时间步不移动。 - sigmas (
List[float]
, 可选) — 用于每个扩散步的 sigma 的自定义值。如果为None
,则 sigma 自动计算。 - mu (
float
, 可选) — 确定在执行分辨率相关时间步偏移时应用于 sigma 的偏移量。 - timesteps (
List[float]
, 可选) — 用于每个扩散步的时间步自定义值。如果为None
,则时间步自动计算。
设置用于扩散链的离散时间步(在推理之前运行)。
步骤
< 来源 >( model_output: FloatTensor timestep: typing.Union[float, torch.FloatTensor] sample: FloatTensor s_churn: float = 0.0 s_tmin: float = 0.0 s_tmax: float = inf s_noise: float = 1.0 generator: typing.Optional[torch._C.Generator] = None per_token_timesteps: typing.Optional[torch.Tensor] = None return_dict: bool = True ) → FlowMatchEulerDiscreteSchedulerOutput
或 tuple
参数
- model_output (
torch.FloatTensor
) — 从学习扩散模型直接输出的结果。 - timestep (
float
) — 扩散链中的当前离散时间步。 - sample (
torch.FloatTensor
) — 扩散过程创建的样本的当前实例。 - s_churn (
float
) — - s_tmin (
float
) — - s_tmax (
float
) — - s_noise (
float
, 默认为 1.0) — 添加到样本中的噪声的缩放因子。 - generator (
torch.Generator
, 可选) — 随机数生成器。 - per_token_timesteps (
torch.Tensor
, 可选) — 样本中每个 token 的时间步。 - return_dict (
bool
) — 是否返回FlowMatchEulerDiscreteSchedulerOutput
或元组。
返回
FlowMatchEulerDiscreteSchedulerOutput
或 tuple
如果 return_dict 为 True
,则返回 FlowMatchEulerDiscreteSchedulerOutput
,否则返回一个元组,其中第一个元素是样本张量。
通过逆转 SDE 预测前一个时间步的样本。此函数从学习到的模型输出(通常是预测的噪声)传播扩散过程。
stretch_shift_to_terminal
< 来源 >( t: Tensor ) → torch.Tensor
拉伸和移动时间步调度,以确保其在配置的 shift_terminal
配置值处终止。