Diffusers 文档

ControlNetUnionModel

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

ControlNetUnionModel

ControlNetUnionModel 是 ControlNet for Stable Diffusion XL 的一个实现。

ControlNet 模型由 xinsir6 在 ControlNetPlus 中引入。它支持多个条件输入,而无需增加计算量。

我们设计了一种新的架构,可以在条件文本到图像生成中支持 10 多种控制类型,并且可以生成在视觉上与 Midjourney 相媲美的高分辨率图像。该网络基于原始 ControlNet 架构,我们提出了两个新模块来:1. 扩展原始 ControlNet 以使用相同的网络参数支持不同的图像条件。 2. 支持多个条件输入,而无需增加计算负载,这对于想要详细编辑图像的设计师尤其重要,不同的条件使用相同的条件编码器,而无需添加额外的计算或参数。

加载

默认情况下,ControlNetUnionModel 应该使用 from_pretrained() 加载。

from diffusers import StableDiffusionXLControlNetUnionPipeline, ControlNetUnionModel

controlnet = ControlNetUnionModel.from_pretrained("xinsir/controlnet-union-sdxl-1.0")
pipe = StableDiffusionXLControlNetUnionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet)

ControlNetUnionModel

class diffusers.ControlNetUnionModel

< >

( in_channels: int = 4 conditioning_channels: int = 3 flip_sin_to_cos: bool = True freq_shift: int = 0 down_block_types: typing.Tuple[str, ...] = ('CrossAttnDownBlock2D', 'CrossAttnDownBlock2D', 'CrossAttnDownBlock2D', 'DownBlock2D') only_cross_attention: typing.Union[bool, typing.Tuple[bool]] = False block_out_channels: typing.Tuple[int, ...] = (320, 640, 1280, 1280) layers_per_block: int = 2 downsample_padding: int = 1 mid_block_scale_factor: float = 1 act_fn: str = 'silu' norm_num_groups: typing.Optional[int] = 32 norm_eps: float = 1e-05 cross_attention_dim: int = 1280 transformer_layers_per_block: typing.Union[int, typing.Tuple[int, ...]] = 1 encoder_hid_dim: typing.Optional[int] = None encoder_hid_dim_type: typing.Optional[str] = None attention_head_dim: typing.Union[int, typing.Tuple[int, ...]] = 8 num_attention_heads: typing.Union[int, typing.Tuple[int, ...], NoneType] = None use_linear_projection: bool = False class_embed_type: typing.Optional[str] = None addition_embed_type: typing.Optional[str] = None addition_time_embed_dim: typing.Optional[int] = None num_class_embeds: typing.Optional[int] = None upcast_attention: bool = False resnet_time_scale_shift: str = 'default' projection_class_embeddings_input_dim: typing.Optional[int] = None controlnet_conditioning_channel_order: str = 'rgb' conditioning_embedding_out_channels: typing.Optional[typing.Tuple[int, ...]] = (48, 96, 192, 384) global_pool_conditions: bool = False addition_embed_type_num_heads: int = 64 num_control_type: int = 6 num_trans_channel: int = 320 num_trans_head: int = 8 num_trans_layer: int = 1 num_proj_channel: int = 320 )

参数

  • in_channels (int, 默认为 4) — 输入样本中的通道数。
  • flip_sin_to_cos (bool, 默认为 True) — 是否在时间嵌入中将 sin 翻转为 cos。
  • freq_shift (int, 默认为 0) — 应用于时间嵌入的频率偏移。
  • down_block_types (tuple[str], 默认为 ("CrossAttnDownBlock2D", "CrossAttnDownBlock2D", "CrossAttnDownBlock2D", "DownBlock2D")) — 要使用的下采样块的元组。
  • only_cross_attention (Union[bool, Tuple[bool]], 默认为 False) —
  • block_out_channels (tuple[int], 默认为 (320, 640, 1280, 1280)) — 每个块的输出通道的元组。
  • layers_per_block (int, 默认为 2) — 每个块的层数。
  • downsample_padding (int, 默认为 1) — 用于下采样的卷积的填充。
  • mid_block_scale_factor (float, 默认为 1) — 用于中间块的缩放因子。
  • act_fn (str, 默认为 “silu”) — 要使用的激活函数。
  • norm_num_groups (int, 可选, 默认为 32) — 用于归一化的组数。 如果为 None,则在后处理中跳过归一化和激活层。
  • norm_eps (float, 默认为 1e-5) — 用于归一化的 epsilon 值。
  • cross_attention_dim (int, 默认为 1280) — 交叉注意力特征的维度。
  • transformer_layers_per_block (intTuple[int], 可选, 默认为 1) — BasicTransformerBlock 类型的 Transformer 块的数量。 仅与 ~models.unet_2d_blocks.CrossAttnDownBlock2D, ~models.unet_2d_blocks.CrossAttnUpBlock2D, ~models.unet_2d_blocks.UNetMidBlock2DCrossAttn 相关。
  • encoder_hid_dim (int, 可选, 默认为 None) — 如果定义了 encoder_hid_dim_type,则 encoder_hidden_states 将从 encoder_hid_dim 维度投影到 cross_attention_dim
  • encoder_hid_dim_type (str, 可选, 默认为 None) — 如果给定,则 encoder_hidden_states 和潜在的其他嵌入将根据 encoder_hid_dim_type 下投影到维度为 cross_attention 的文本嵌入。
  • attention_head_dim (Union[int, Tuple[int]], 默认为 8) — 注意力头的维度。
  • use_linear_projection (bool, 默认为 False) —
  • class_embed_type (str, 可选, 默认为 None) — 要使用的类别嵌入类型,它最终与时间嵌入求和。 从 None、"timestep""identity""projection""simple_projection" 中选择。
  • addition_embed_type (str, 可选, 默认为 None) — 配置可选的嵌入,它将与时间嵌入求和。 从 None 或 “text” 中选择。“text” 将使用 TextTimeEmbedding 层。
  • num_class_embeds (int, 可选, 默认为 0) — 当使用 class_embed_type 等于 None 执行类别条件控制时,可学习嵌入矩阵的输入维度将被投影到 time_embed_dim
  • upcast_attention (bool, 默认为 False) —
  • resnet_time_scale_shift (str, 默认为 "default") — ResNet 块的时间尺度偏移配置 (参见 ResnetBlock2D)。 从 defaultscale_shift 中选择。
  • projection_class_embeddings_input_dim (int, 可选, 默认为 None) — 当 class_embed_type="projection" 时,class_labels 输入的维度。 当 class_embed_type="projection" 时为必需。
  • controlnet_conditioning_channel_order (str, 默认为 "rgb") — 条件图像的通道顺序。 如果是 bgr,将转换为 rgb
  • conditioning_embedding_out_channels (tuple[int], 可选, 默认为 (48, 96, 192, 384)) — conditioning_embedding 层中每个块的输出通道元组。
  • global_pool_conditions (bool, 默认为 False) —

ControlNetUnion 模型。

前向传播

< >

( sample: Tensor timestep: typing.Union[torch.Tensor, float, int] encoder_hidden_states: Tensor controlnet_cond: typing.List[torch.Tensor] control_type: Tensor control_type_idx: typing.List[int] conditioning_scale: float = 1.0 class_labels: typing.Optional[torch.Tensor] = None timestep_cond: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None added_cond_kwargs: typing.Optional[typing.Dict[str, torch.Tensor]] = None cross_attention_kwargs: typing.Optional[typing.Dict[str, typing.Any]] = None guess_mode: bool = False return_dict: bool = True ) ControlNetOutput tuple

参数

  • sample (torch.Tensor) — 噪声输入张量。
  • timestep (Union[torch.Tensor, float, int]) — 对输入进行去噪处理的时间步数。
  • encoder_hidden_states (torch.Tensor) — 编码器隐藏状态。
  • controlnet_cond (List[torch.Tensor]) — 条件输入张量列表。
  • control_type (torch.Tensor) — 形状为 (batch, num_control_type) 的张量,其值 01 取决于是否使用控制类型。
  • control_type_idx (List[int]) — control_type 的索引列表。
  • conditioning_scale (float, 默认为 1.0) — ControlNet 输出的缩放因子。
  • class_labels (torch.Tensor, optional, defaults to None) — 用于条件控制的可选类别标签。它们的嵌入向量将与时间步嵌入向量相加。
  • timestep_cond (torch.Tensor, optional, defaults to None) — 用于时间步的额外条件嵌入向量。如果提供,这些嵌入向量将与通过 self.time_embedding 层传递的 timestep_embedding 相加,以获得最终的时间步嵌入向量。
  • attention_mask (torch.Tensor, optional, defaults to None) — 应用于 `encoder_hidden_states` 的形状为 `(batch, key_tokens)` 的注意力掩码。如果为 `1`,则保留掩码;如果为 `0`,则丢弃掩码。掩码将转换为偏置,该偏置会向对应于“丢弃” token 的注意力分数添加大的负值。
  • added_cond_kwargs (dict) — Stable Diffusion XL UNet 的附加条件。
  • cross_attention_kwargs (dict[str], optional, defaults to None) — 一个 kwargs 字典,如果指定,则会传递给 `AttnProcessor`。
  • guess_mode (bool, defaults to False) — 在此模式下,即使您移除所有提示,ControlNet 编码器也会尽力识别输入的输入内容。建议使用介于 3.0 和 5.0 之间的 `guidance_scale`。
  • return_dict (bool, defaults to True) — 是否返回 `ControlNetOutput` 而不是普通元组。

返回

ControlNetOutput tuple

如果 return_dictTrue,则返回 ControlNetOutput,否则返回一个元组,其中第一个元素是样本张量。

ControlNetUnionModel 的 forward 方法。

from_unet

< >

( unet: UNet2DConditionModel controlnet_conditioning_channel_order: str = 'rgb' conditioning_embedding_out_channels: typing.Optional[typing.Tuple[int, ...]] = (16, 32, 96, 256) load_weights_from_unet: bool = True )

参数

  • unet (UNet2DConditionModel) — 要复制到 ControlNetUnionModel 的 UNet 模型权重。所有配置选项也会在适用的情况下进行复制。

从 UNet2DConditionModel 实例化 ControlNetUnionModel。

set_attention_slice

< >

( slice_size: typing.Union[str, int, typing.List[int]] )

参数

  • slice_size (strintlist(int), optional, defaults to "auto") — 当为 "auto" 时,注意力头的输入减半,因此注意力分两步计算。如果为 "max",则通过一次只运行一个切片来最大程度地节省内存。如果提供一个数字,则使用与 `attention_head_dim // slice_size` 一样多的切片。在这种情况下,`attention_head_dim` 必须是 `slice_size` 的倍数。

启用切片注意力计算。

启用此选项后,注意力模块会将输入张量分割成切片,分几个步骤计算注意力。这对于节省一些内存以换取速度的轻微降低非常有用。

set_attn_processor

< >

( processor: typing.Union[diffusers.models.attention_processor.AttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor2_0, diffusers.models.attention_processor.JointAttnProcessor2_0, diffusers.models.attention_processor.PAGJointAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGJointAttnProcessor2_0, diffusers.models.attention_processor.FusedJointAttnProcessor2_0, diffusers.models.attention_processor.AllegroAttnProcessor2_0, diffusers.models.attention_processor.AuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FusedAuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.CogVideoXAttnProcessor2_0, diffusers.models.attention_processor.FusedCogVideoXAttnProcessor2_0, diffusers.models.attention_processor.XFormersAttnAddedKVProcessor, diffusers.models.attention_processor.XFormersAttnProcessor, diffusers.models.attention_processor.XLAFlashAttnProcessor2_0, diffusers.models.attention_processor.AttnProcessorNPU, diffusers.models.attention_processor.AttnProcessor2_0, diffusers.models.attention_processor.MochiVaeAttnProcessor2_0, diffusers.models.attention_processor.MochiAttnProcessor2_0, diffusers.models.attention_processor.StableAudioAttnProcessor2_0, diffusers.models.attention_processor.HunyuanAttnProcessor2_0, diffusers.models.attention_processor.FusedHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.LuminaAttnProcessor2_0, diffusers.models.attention_processor.FusedAttnProcessor2_0, diffusers.models.attention_processor.CustomDiffusionXFormersAttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor2_0, diffusers.models.attention_processor.SlicedAttnProcessor, diffusers.models.attention_processor.SlicedAttnAddedKVProcessor, diffusers.models.attention_processor.SanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGSanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySanaLinearAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleLinearAttention, diffusers.models.attention_processor.SanaMultiscaleAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleAttentionProjection, diffusers.models.attention_processor.IPAdapterAttnProcessor, diffusers.models.attention_processor.IPAdapterAttnProcessor2_0, diffusers.models.attention_processor.IPAdapterXFormersAttnProcessor, diffusers.models.attention_processor.SD3IPAdapterJointAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.LoRAAttnProcessor, diffusers.models.attention_processor.LoRAAttnProcessor2_0, diffusers.models.attention_processor.LoRAXFormersAttnProcessor, diffusers.models.attention_processor.LoRAAttnAddedKVProcessor]]] )

参数

  • processor (AttentionProcessor 的字典或仅 AttentionProcessor) — 实例化的处理器类或处理器类的字典,它们将被设置为**所有** `Attention` 层的处理器。如果 `processor` 是一个字典,则键需要定义到相应交叉注意力处理器的路径。当设置可训练的注意力处理器时,强烈建议这样做。

设置用于计算注意力的注意力处理器。

set_default_attn_processor

< >

( )

禁用自定义注意力处理器并设置默认注意力实现。

< > Update on GitHub