Diffusers 文档

LuminaNextDiT2DModel

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

LuminaNextDiT2DModel

来自 Lumina-T2X 的用于 2D 数据的扩散 Transformer 模型的新版本。

LuminaNextDiT2DModel

class diffusers.LuminaNextDiT2DModel

< >

( sample_size: int = 128 patch_size: Optional = 2 in_channels: Optional = 4 hidden_size: Optional = 2304 num_layers: Optional = 32 num_attention_heads: Optional = 32 num_kv_heads: Optional = None multiple_of: Optional = 256 ffn_dim_multiplier: Optional = None norm_eps: Optional = 1e-05 learn_sigma: Optional = True qk_norm: Optional = True cross_attention_dim: Optional = 2048 scaling_factor: Optional = 1.0 )

参数

  • sample_size (int) — 潜在图像的宽度。由于它用于学习一定数量的位置嵌入,因此在训练期间是固定的。
  • patch_size (int, 可选, (int, 可选, 默认为 2) — 图像中每个补丁的大小。此参数定义馈送到模型的补丁的分辨率。
  • in_channels (int, 可选, 默认为 4) — 模型的输入通道数。通常,这与输入图像中的通道数匹配。
  • hidden_size (int, 可选, 默认为 4096) — 模型中隐藏层的维度。此参数决定模型隐藏表示的宽度。
  • num_layers (int, 可选, 默认为 32) — 模型中的层数。这定义了神经网络的深度。
  • num_attention_heads (int, 可选, 默认为 32) — 每个注意力层中的注意力头的数量。此参数指定使用了多少个独立的注意力机制。
  • num_kv_heads (int, 可选, 默认为 8) — 注意力机制中键值头的数量,如果与注意力头的数量不同。如果为 None,则默认为 num_attention_heads。
  • multiple_of (int, 可选, 默认为 256) — 隐藏大小应为其倍数的因子。这可以帮助优化某些硬件配置。
  • ffn_dim_multiplier (float, 可选) — 前馈网络维度的乘数。如果为 None,则使用基于模型配置的默认值。
  • norm_eps (float, 可选, 默认为 1e-5) — 添加到分母中的一个小值,用于在归一化层中提高数值稳定性。
  • qk_norm (bool, 可选,默认为 True) — 指示注意力机制中的查询和键是否应该被标准化。
  • cross_attention_dim (int, 可选,默认为 2048) — 文本嵌入的维度。此参数定义模型中使用的文本表示的大小。
  • scaling_factor (float, 可选,默认为 1.0) — 应用于模型中某些参数或层的缩放因子。这可用于调整模型操作的整体规模。

LuminaNextDiT:具有 Transformer 主干的扩散模型。

继承 ModelMixin 和 ConfigMixin 以与 diffusers 的采样器 StableDiffusionPipeline 兼容。

前向传播

< >

( hidden_states: 张量 timestep: 张量 encoder_hidden_states: 张量 encoder_mask: 张量 image_rotary_emb: 张量 cross_attention_kwargs: 字典 = None return_dict = True )

参数

  • hidden_states (torch.Tensor) — 形状为 (N, C, H, W) 的输入张量。
  • timestep (torch.Tensor) — 形状为 (N,) 的扩散时间步长张量。
  • encoder_hidden_states (torch.Tensor) — 形状为 (N, D) 的标题特征张量。
  • encoder_mask (torch.Tensor) — 形状为 (N, L) 的标题掩码张量。

LuminaNextDiT 的前向传递。

< > 在 GitHub 上更新