Diffusers 文档
混元DiT2D模型
并获得增强的文档体验
开始
HunyuanDiT2DModel
来自 Hunyuan-DiT 的用于 2D 数据的 Diffusion Transformer 模型。
HunyuanDiT2DModel
class diffusers.HunyuanDiT2DModel
< source >( num_attention_heads: int = 16 attention_head_dim: int = 88 in_channels: typing.Optional[int] = None patch_size: typing.Optional[int] = None activation_fn: str = 'gelu-approximate' sample_size = 32 hidden_size = 1152 num_layers: int = 28 mlp_ratio: float = 4.0 learn_sigma: bool = True cross_attention_dim: int = 1024 norm_type: str = 'layer_norm' cross_attention_dim_t5: int = 2048 pooled_projection_dim: int = 1024 text_len: int = 77 text_len_t5: int = 256 use_style_cond_and_image_meta_size: bool = True )
参数
- num_attention_heads (
int
, 可选, 默认为 16) — 用于多头注意力的头的数量。 - attention_head_dim (
int
, 可选, 默认为 88) — 每个头部的通道数。 - in_channels (
int
, 可选) — 输入和输出中的通道数(如果输入是连续的,请指定)。 - patch_size (
int
, 可选) — 用于输入的 patch 的大小。 - activation_fn (
str
, 可选, 默认为"geglu"
) — 在前馈中使用的激活函数。 - sample_size (
int
, 可选) — 潜在图像的宽度。这在训练期间是固定的,因为它用于学习位置嵌入的数量。 - dropout (
float
, 可选, 默认为 0.0) — 要使用的 dropout 概率。 - cross_attention_dim (
int
, 可选) — clip 文本嵌入中的维度数。 - hidden_size (
int
, 可选) — 条件嵌入层中隐藏层的大小。 - num_layers (
int
, 可选, 默认为 1) — 要使用的 Transformer 模块的层数。 - mlp_ratio (
float
, 可选, 默认为 4.0) — 隐藏层大小与输入大小的比率。 - learn_sigma (
bool
, 可选, 默认为True
) — 是否预测方差。 - cross_attention_dim_t5 (
int
, 可选) — t5 文本嵌入中的维度数量。 - pooled_projection_dim (
int
, 可选) — 池化投影的大小。 - text_len (
int
, 可选) — clip 文本嵌入的长度。 - text_len_t5 (
int
, 可选) — T5 文本嵌入的长度。 - use_style_cond_and_image_meta_size (
bool
, 可选) — 是否使用风格条件和图像元数据大小。版本 <=1.1 时为 True,版本 >= 1.2 时为 False。
HunYuanDiT:带有 Transformer 主干的扩散模型。
继承 ModelMixin 和 ConfigMixin 以兼容 diffusers 的 sampler StableDiffusionPipeline。
enable_forward_chunking
< source >( chunk_size: typing.Optional[int] = None dim: int = 0 )
设置要使用的注意力处理器 前馈分块。
forward
< source >( hidden_states timestep encoder_hidden_states = None text_embedding_mask = None encoder_hidden_states_t5 = None text_embedding_mask_t5 = None image_meta_size = None style = None image_rotary_emb = None controlnet_block_samples = None return_dict = True )
参数
- hidden_states (
torch.Tensor
,形状为(batch size, dim, height, width)
) — 输入张量。 - timestep (
torch.LongTensor
, 可选) — 用于指示去噪步骤。 - encoder_hidden_states (
torch.Tensor
,形状为(batch size, sequence len, embed dims)
, 可选) — 用于交叉注意力层的条件嵌入。这是BertModel
的输出。 - text_embedding_mask — torch.Tensor 形状为
(batch, key_tokens)
的注意力掩码应用于encoder_hidden_states
。这是BertModel
的输出。 - encoder_hidden_states_t5 (
torch.Tensor
,形状为(batch size, sequence len, embed dims)
, 可选) — 用于交叉注意力层的条件嵌入。这是 T5 文本编码器的输出。 - text_embedding_mask_t5 — torch.Tensor 形状为
(batch, key_tokens)
的注意力掩码应用于encoder_hidden_states
。这是 T5 文本编码器的输出。 - image_meta_size (torch.Tensor) — 条件嵌入,指示图像大小。
- style — torch.Tensor: 条件嵌入,指示风格。
- image_rotary_emb (
torch.Tensor
) — 图像旋转嵌入,用于在注意力计算期间应用于查询和键张量。 - return_dict — bool 是否返回字典。
HunyuanDiT2DModel 的 forward 方法。
启用融合的 QKV 投影。对于自注意力模块,所有投影矩阵(即,查询、键、值)都被融合。对于交叉注意力模块,键和值投影矩阵被融合。
此 API 处于 🧪 实验阶段。
set_attn_processor
< source >( 处理器: typing.Union[diffusers.models.attention_processor.AttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor2_0, diffusers.models.attention_processor.JointAttnProcessor2_0, diffusers.models.attention_processor.PAGJointAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGJointAttnProcessor2_0, diffusers.models.attention_processor.FusedJointAttnProcessor2_0, diffusers.models.attention_processor.AllegroAttnProcessor2_0, diffusers.models.attention_processor.AuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FusedAuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.CogVideoXAttnProcessor2_0, diffusers.models.attention_processor.FusedCogVideoXAttnProcessor2_0, diffusers.models.attention_processor.XFormersAttnAddedKVProcessor, diffusers.models.attention_processor.XFormersAttnProcessor, diffusers.models.attention_processor.XLAFlashAttnProcessor2_0, diffusers.models.attention_processor.AttnProcessorNPU, diffusers.models.attention_processor.AttnProcessor2_0, diffusers.models.attention_processor.MochiVaeAttnProcessor2_0, diffusers.models.attention_processor.MochiAttnProcessor2_0, diffusers.models.attention_processor.StableAudioAttnProcessor2_0, diffusers.models.attention_processor.HunyuanAttnProcessor2_0, diffusers.models.attention_processor.FusedHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.LuminaAttnProcessor2_0, diffusers.models.attention_processor.FusedAttnProcessor2_0, diffusers.models.attention_processor.CustomDiffusionXFormersAttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor2_0, diffusers.models.attention_processor.SlicedAttnProcessor, diffusers.models.attention_processor.SlicedAttnAddedKVProcessor, diffusers.models.attention_processor.SanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGSanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySanaLinearAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleLinearAttention, diffusers.models.attention_processor.SanaMultiscaleAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleAttentionProjection, diffusers.models.attention_processor.IPAdapterAttnProcessor, diffusers.models.attention_processor.IPAdapterAttnProcessor2_0, diffusers.models.attention_processor.IPAdapterXFormersAttnProcessor, diffusers.models.attention_processor.SD3IPAdapterJointAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.LoRAAttnProcessor, diffusers.models.attention_processor.LoRAAttnProcessor2_0, diffusers.models.attention_processor.LoRAXFormersAttnProcessor, diffusers.models.attention_processor.LoRAAttnAddedKVProcessor]]] )
设置用于计算注意力的注意力处理器。
禁用自定义注意力处理器并设置默认的注意力实现。