Diffusers 文档

FlowMatchEulerDiscreteScheduler

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

FlowMatchEulerDiscreteScheduler

FlowMatchEulerDiscreteScheduler 是基于 Stable Diffusion 3 中引入的流匹配采样方法。

FlowMatchEulerDiscreteScheduler

diffusers.FlowMatchEulerDiscreteScheduler

< >

( num_train_timesteps: int = 1000 shift: float = 1.0 use_dynamic_shifting: bool = False base_shift: typing.Optional[float] = 0.5 max_shift: typing.Optional[float] = 1.15 base_image_seq_len: typing.Optional[int] = 256 max_image_seq_len: typing.Optional[int] = 4096 invert_sigmas: bool = False shift_terminal: typing.Optional[float] = None use_karras_sigmas: typing.Optional[bool] = False use_exponential_sigmas: typing.Optional[bool] = False use_beta_sigmas: typing.Optional[bool] = False time_shift_type: str = 'exponential' stochastic_sampling: bool = False )

参数

  • num_train_timesteps (int, 默认为 1000) — 用于训练模型的扩散步数。
  • shift (float, 默认为 1.0) — 时间步调度表的偏移值。
  • use_dynamic_shifting (bool, 默认为 False) — 是否根据图像分辨率动态应用时间步偏移。
  • base_shift (float, 默认为 0.5) — 用于稳定图像生成的值。增加 base_shift 可减少变化,使图像与期望输出更一致。
  • max_shift (float, 默认为 1.15) — 潜在向量允许的变化值。增加 max_shift 鼓励更多变化,图像可能更夸张或风格化。
  • base_image_seq_len (int, 默认为 256) — 基础图像序列长度。
  • max_image_seq_len (int, 默认为 4096) — 最大图像序列长度。
  • invert_sigmas (bool, 默认为 False) — 是否反转 sigma。
  • shift_terminal (float, 默认为 None) — 偏移时间步调度表的结束值。
  • use_karras_sigmas (bool, 默认为 False) — 在采样期间是否使用 Karras sigma 作为噪声调度中的步长。
  • use_exponential_sigmas (bool, 默认为 False) — 在采样期间是否使用指数 sigma 作为噪声调度中的步长。
  • use_beta_sigmas (bool, 默认为 False) — 在采样期间是否使用 beta sigma 作为噪声调度中的步长。
  • time_shift_type (str, 默认为 “exponential”) — 要应用的动态分辨率相关时间步偏移的类型。可以是 “exponential” 或 “linear”。
  • stochastic_sampling (bool, 默认为 False) — 是否使用随机采样。

欧拉调度器。

此模型继承自 SchedulerMixinConfigMixin。查看超类文档以了解库为所有调度器实现的通用方法,例如加载和保存。

scale_noise

< >

( sample: FloatTensor timestep: typing.Union[float, torch.FloatTensor] noise: typing.Optional[torch.FloatTensor] = None ) torch.FloatTensor

参数

  • sample (torch.FloatTensor) — 输入样本。
  • timestep (int, 可选) — 扩散链中的当前时间步。

返回

torch.FloatTensor

一个缩放后的输入样本。

流匹配中的正向过程

set_begin_index

< >

( begin_index: int = 0 )

参数

  • begin_index (int) — 调度器的起始索引。

设置调度器的起始索引。此函数应在推理之前从管道中运行。

set_timesteps

< >

( num_inference_steps: typing.Optional[int] = None device: typing.Union[str, torch.device] = None sigmas: typing.Optional[typing.List[float]] = None mu: typing.Optional[float] = None timesteps: typing.Optional[typing.List[float]] = None )

参数

  • num_inference_steps (int, 可选) — 使用预训练模型生成样本时使用的扩散步数。
  • device (strtorch.device, 可选) — 时间步应移动到的设备。如果为 None,则时间步不移动。
  • sigmas (List[float], 可选) — 用于每个扩散步的 sigma 的自定义值。如果为 None,则 sigma 自动计算。
  • mu (float, 可选) — 确定在执行分辨率相关时间步偏移时应用于 sigma 的偏移量。
  • timesteps (List[float], 可选) — 用于每个扩散步的时间步自定义值。如果为 None,则时间步自动计算。

设置用于扩散链的离散时间步(在推理之前运行)。

步骤

< >

( model_output: FloatTensor timestep: typing.Union[float, torch.FloatTensor] sample: FloatTensor s_churn: float = 0.0 s_tmin: float = 0.0 s_tmax: float = inf s_noise: float = 1.0 generator: typing.Optional[torch._C.Generator] = None per_token_timesteps: typing.Optional[torch.Tensor] = None return_dict: bool = True ) FlowMatchEulerDiscreteSchedulerOutputtuple

参数

  • model_output (torch.FloatTensor) — 从学习扩散模型直接输出的结果。
  • timestep (float) — 扩散链中的当前离散时间步。
  • sample (torch.FloatTensor) — 扩散过程创建的样本的当前实例。
  • s_churn (float) —
  • s_tmin (float) —
  • s_tmax (float) —
  • s_noise (float, 默认为 1.0) — 添加到样本中的噪声的缩放因子。
  • generator (torch.Generator, 可选) — 随机数生成器。
  • per_token_timesteps (torch.Tensor, 可选) — 样本中每个 token 的时间步。
  • return_dict (bool) — 是否返回 FlowMatchEulerDiscreteSchedulerOutput 或元组。

返回

FlowMatchEulerDiscreteSchedulerOutputtuple

如果 return_dict 为 True,则返回 FlowMatchEulerDiscreteSchedulerOutput,否则返回一个元组,其中第一个元素是样本张量。

通过逆转 SDE 预测前一个时间步的样本。此函数从学习到的模型输出(通常是预测的噪声)传播扩散过程。

stretch_shift_to_terminal

< >

( t: Tensor ) torch.Tensor

参数

  • t (torch.Tensor) — 要拉伸和移动的时间步张量。

返回

torch.Tensor

调整后的时间步张量,使得最终值等于 self.config.shift_terminal

拉伸和移动时间步调度,以确保其在配置的 shift_terminal 配置值处终止。

参考:https://github.com/Lightricks/LTX-Video/blob/a01a171f8fe3d99dce2728d60a73fecf4d4238ae/ltx_video/schedulers/rf.py#L51

< > 在 GitHub 上更新