HunyuanDiT2DModel
来自 Hunyuan-DiT 的用于 2D 数据的扩散 Transformer 模型。
HunyuanDiT2DModel
class diffusers.HunyuanDiT2DModel
< 源代码 >( num_attention_heads: int = 16 attention_head_dim: int = 88 in_channels: Optional = None patch_size: Optional = None activation_fn: str = 'gelu-approximate' sample_size = 32 hidden_size = 1152 num_layers: int = 28 mlp_ratio: float = 4.0 learn_sigma: bool = True cross_attention_dim: int = 1024 norm_type: str = 'layer_norm' cross_attention_dim_t5: int = 2048 pooled_projection_dim: int = 1024 text_len: int = 77 text_len_t5: int = 256 use_style_cond_and_image_meta_size: bool = True )
参数
- num_attention_heads (
int
, 可选, 默认值为 16) — 用于多头注意力机制的头数。 - attention_head_dim (
int
, 可选, 默认值为 88) — 每个头的通道数。 - in_channels (
int
, 可选) — 输入和输出的通道数(如果输入是连续的,请指定)。 - patch_size (
int
, 可选) — 用于输入的补丁大小。 - activation_fn (
str
, 可选, 默认值为"geglu"
) — 前馈层中使用的激活函数。 - sample_size (
int
, 可选) — 潜在图像的宽度。 由于它用于学习一定数量的位置嵌入,因此在训练期间保持固定。 - dropout (
float
, 可选, 默认值为 0.0) — 使用的丢弃概率。 - cross_attention_dim (
int
, 可选) — 剪辑文本嵌入的维度。 - hidden_size (
int
, 可选) — 条件嵌入层中隐藏层的尺寸。 - learn_sigma (
bool
, 可选, 默认值为True
) — 是否预测方差。 - cross_attention_dim_t5 (
int
, 可选) — t5 文本嵌入的维度数。 - pooled_projection_dim (
int
, 可选) — 池化投影的大小。 - text_len (
int
, 可选) — 剪辑文本嵌入的长度。 - text_len_t5 (
int
, 可选) — T5 文本嵌入的长度。 - use_style_cond_and_image_meta_size (
bool
, 可选) — 是否使用样式条件和图像元数据大小。 版本 <=1.1 为 True,版本 >= 1.2 为 False。
HunYuanDiT:具有 Transformer 主干的扩散模型。
继承 ModelMixin 和 ConfigMixin 以与 diffusers 的采样器 StableDiffusionPipeline 兼容。
该 HunyuanDiT2DModel 正向方法。
启用融合的 QKV 投影。 对于自注意力模块,所有投影矩阵(即查询、键、值)都已融合。 对于交叉注意力模块,键和值投影矩阵已融合。
此 API 🧪 处于实验阶段。
set_attn_processor
< 源代码 > ( processor: Union )
设置用于计算注意力的注意力处理器。
禁用自定义注意力处理器并设置默认注意力实现。