Diffusers 文档

稀疏控制网络模型

Hugging Face's logo
加入Hugging Face社区

并获得增强型文档体验

开始使用

稀疏控制网络模型

稀疏控制网络模型是 ControlNet 的一个实现,用于 AnimateDiff

ControlNet 在 Zhang Lvmin、Rao Anyi 和 Agrawala Maneesh 的论文《Adding Conditional Control to Text-to-Image Diffusion Models》中被引入,该论文的链接为 Adding Conditional Control to Text-to-Image Diffusion Models

控制网络稀疏版(SparseCtrl)在 Guo Yuwei、Yang Ceyuan、Rao Anyi、Agrawala Maneesh、Lin Dahua 和 Dai Bo 的论文《SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models》中被引入,该论文的链接为 SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models,旨在通过实现文本到视频扩散模型中的可控生成。

该论文的摘要如下:

近年来,文本到视频(T2V),即根据文本提示生成视频的发展取得了显著进展。然而,由于空间不确定性,仅依靠文本提示通常会导致帧组成模糊。因此,研究社区利用密集结构信号,例如每帧深度/边缘序列,以提高可控性,但相应地,信号的收集增加了推理的负担。在这项工作中,我们提出了 SparseCtrl,它使用时间稀疏信号实现灵活的结构控制,如图 1 所示,只需一个或几个输入。它包含一个额外的条件编码器来处理这些稀疏信号,同时保持预训练的 T2V 模型不变。该方法兼容多种模态,包括草图、深度图和 RGB 图像,为视频生成提供更多实用控制,并促进故事板、深度渲染、关键帧动画和插值等应用。大量实验证明了 SparseCtrl 在原始和个人化 T2V 生成器上的泛化能力。代码和模型将在 此 https URL 公开。

加载稀疏控制网络模型示例

import torch
from diffusers import SparseControlNetModel

# fp32 variant in float16
# 1. Scribble checkpoint
controlnet = SparseControlNetModel.from_pretrained("guoyww/animatediff-sparsectrl-scribble", torch_dtype=torch.float16)

# 2. RGB checkpoint
controlnet = SparseControlNetModel.from_pretrained("guoyww/animatediff-sparsectrl-rgb", torch_dtype=torch.float16)

# For loading fp16 variant, pass `variant="fp16"` as an additional parameter

SparseControlNetModel

diffusers.SparseControlNetModel

< >

( in_channels: int = 4 conditioning_channels: int = 4 flip_sin_to_cos: bool = True freq_shift: int = 0 down_block_types: Tuple = ('CrossAttnDownBlockMotion', 'CrossAttnDownBlockMotion', 'CrossAttnDownBlockMotion', 'DownBlockMotion') only_cross_attention: Union = False block_out_channels: Tuple = (320, 640, 1280, 1280) layers_per_block: int = 2 downsample_padding: int = 1 mid_block_scale_factor: float = 1 act_fn: str = 'silu' norm_num_groups: Optional = 32 norm_eps: float = 1e-05 cross_attention_dim: int = 768 transformer_layers_per_block: Union = 1 transformer_layers_per_mid_block: Union = None temporal_transformer_layers_per_block: Union = 1 attention_head_dim: Union = 8 num_attention_heads: Union = None use_linear_projection: bool = False upcast_attention: bool = False resnet_time_scale_shift: str = 'default' conditioning_embedding_out_channels: Optional = (16, 32, 96, 256) global_pool_conditions: bool = False controlnet_conditioning_channel_order: str = 'rgb' motion_max_seq_length: int = 32 motion_num_attention_heads: int = 8 concat_conditioning_mask: bool = True use_simplified_condition_embedding: bool = True )

参数

  • in_channels (int, 默认值为 4) — 输入样本中的通道数。
  • conditioning_channels (int, 默认为 4) — 控制网条件嵌入模块的输入通道数。如果 concat_condition_embedding 为 True,则此处的值将增加 1。
  • flip_sin_to_cos (bool, 默认为 True) — 是否在时间嵌入中将正弦翻转为余弦。
  • freq_shift (int, 默认为 0) — 应用到时间嵌入的频率偏移。
  • down_block_types (tuple[str], 默认为 ("CrossAttnDownBlock2D", "CrossAttnDownBlock2D", "CrossAttnDownBlock2D", "DownBlock2D")) — 要使用的下采样块的元组。
  • mid_block_scale_factor(《单精度浮点数》,默认为1) — 中间块的缩放因子。
  • act_fn(《字符串》,默认为“silu”) — 要使用的激活函数。
  • norm_num_groups(《整数》,可选,默认为32) — 用于归一化的组数。如果为None,则在后期处理中跳过归一化和激活层。
  • norm_eps(《单精度浮点数》,默认为1e-5) — 用于归一化的epsilon值。
  • cross_attention_dim (int,默认为1280) — 交叉注意力特征的维度。
  • transformer_layers_per_block (intTuple[int],默认为1,可选) — BasicTransformerBlock类型的transformer blocks数量。仅对~models.unet_2d_blocks.CrossAttnDownBlock2D~models.unet_2d_blocks.CrossAttnUpBlock2D~models.unet_2d_blocks.UNetMidBlock2DCrossAttn有效。
  • transformer_layers_per_mid_block (intTuple[int],默认为1,可选) — 中间块中每个层的transformer layer数量。
  • attention_head_dim (intTuple[int],默认为 8) — 注意力头部的维度。
  • num_attention_heads (intTuple[int],可选) — 要用于多头注意力的头部数量。
  • use_linear_projection (bool,默认为 False) —
  • upcast_attention (bool,默认为 False) —
  • resnet_time_scale_shift (str, 默认值为 "default") — 用于ResNet块的时域尺度偏移配置(见 ResnetBlock2D)。选择 defaultscale_shift
  • conditioning_embedding_out_channels (Tuple[int], 默认值为 (16, 32, 96, 256)) — conditioning_embedding层中每个块的输出通道的元组。
  • global_pool_conditions (bool, 默认值为 False) — TODO(Patrick) - 未使用参数
  • controlnet_conditioning_channel_order (str, 默认值为 rgb) —
  • motion_max_seq_length (int,默认为32) — 用于运动模块的最大序列长度。
  • motion_num_attention_heads (intTuple[int],默认为8) — 每个注意层中使用的头部数。
  • concat_conditioning_mask (bool,默认为True) —
  • use_simplified_condition_embedding (bool,默认为True) —

SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models中描述的SparseControlNet模型。

forward

< >

( sample: Tensor timestep: Union encoder_hidden_states: Tensor controlnet_cond: Tensor conditioning_scale: float = 1.0 timestep_cond: Optional = None attention_mask: Optional = None cross_attention_kwargs: Optional = None conditioning_mask: Optional = None guess_mode: bool = False return_dict: bool = True ) ControlNetOutput tuple

参数

  • sample (torch.Tensor) — 噪声输入的张量。
  • 时间步 (Union[torch.Tensor, float, int]) — 消除输入的时间步数。
  • 编码器隐藏状态 (torch.Tensor) — 编码器的隐藏状态。
  • controlnet_cond (torch.Tensor) — 条件输入张量,形状为 (batch_size, sequence_length, hidden_size)
  • conditioning_scale (float, 默认为 1.0) — ControlNet 输出的缩放因子。
  • class_labels(《torch.Tensor》可选,默认为None)—— 可选的分类标签用于条件。它们的嵌入将与时间步嵌入相加。
  • timestep_cond(《torch.Tensor》可选,默认为None)—— 时间步额外的条件嵌入。如果提供,嵌入将与通过self.time_embedding层传递的时间步嵌入相加,以得到最终的时间步嵌入。
  • attention_mask(《torch.Tensor》可选,默认为None)—— 形状为(batch, key_tokens)的注意力掩码应用于encoder_hidden_states。如果为1,则掩码保留,如果为0则丢弃。掩码将转换为偏差,该偏差将大负值添加到对应“丢弃”词的注意力评分中。
  • added_cond_kwargs (dict) — 稳定扩散XL UNet的附加条件。
  • cross_attention_kwargs (dict[str], 可选, 默认为 None) — 当指定时,传递给 AttnProcessor 的 kwargs 字典。
  • guess_mode (bool, 默认为 False) — 在这种模式下,ControlNet 编码器会尽力识别输入内容,即使你移除了所有提示。建议 guidance_scale 在 3.0 到 5.0 之间。
  • return_dict (bool,默认为 True) — 是否返回一个 ControlNetOutput 而不是普通元组。

返回值

ControlNetOutput tuple

如果 return_dictTrue,则返回一个 ControlNetOutput,否则返回一个元组,其中第一个元素是样本张量。

SparseControlNetModel 的 forward 方法。

from_unet

< >

( unet: UNet2DConditionModel controlnet_conditioning_channel_order: str = 'rgb' conditioning_embedding_out_channels: Optional = (16, 32, 96, 256) load_weights_from_unet: bool = True conditioning_channels: int = 3 )

参数

  • unet (UNet2DConditionModel) — 将要复制到 SparseControlNetModel 中的 UNet 模型权重。所有配置选项在适用的情况下也将被复制。

UNet2DConditionModel 创建一个 SparseControlNetModel

设置关注层级

< >

( slice_size: Union )

参数

  • slice_size (strintlist(int)可选,默认为 "auto") — 当设置为 "auto" 时,输入到关注层的维度减半,因此关注计算分为两步进行。若设置为 "max",则每一步运行一个切片可以保存最大的内存。若提供一个数字,则使用 attention_head_dim // slice_size 个切片。在这种情况下,attention_head_dim 必须是 slice_size 的倍数。

启用切分关注计算。

当此选项启用时,关注模块会将输入张量分割成多个切片,分步骤计算关注。这在节省一些内存的同时,会略微降低速度。

设置关注处理器

< >

( processor: Union )

参数

  • processor (dict of AttentionProcessor or only AttentionProcessor) — 将实例化的处理类或处理器类的字典设置为所有 Attention 层的处理器。

    如果 processor 是字典,则密钥需要定义到相应交叉注意力处理器的路径。当设置可训练的注意力处理器时,这强烈推荐。

设置用于计算注意力的注意力处理器。

set_default_attn_processor

< >

( )

禁用自定义的注意力处理器并设置默认的注意力实现。

SparseControlNetOutput

class diffusers.models.controlnet_sparsectrl.SparseControlNetOutput

< >

( down_block_res_samples: Tuple mid_block_res_sample: Tensor )

参数

  • down_block_res_samples (tuple[torch.Tensor]) — 每个下采样块的多个分辨率下采样激活状态元组。每个张量应具有形状 (batch_size, channel * resolution, height //resolution, width // resolution)。输出可以用于条件化原始 UNet 的下采样激活。
  • mid_down_block_re_sample (torch.Tensor) — 中间块(最低采样分辨率)的激活。每个张量应具有形状 (batch_size, channel * lowest_resolution, height // lowest_resolution, width // lowest_resolution)。输出可用于条件化原始 UNet 的中间块激活。

SparseControlNetModel 的输出。

< > 在 GitHub 上更新