Diffusers 文档
LuminaNextDiT2DModel
并获得增强的文档体验
开始使用
LuminaNextDiT2DModel
来自 Lumina-T2X 的 2D 数据扩散 Transformer 模型的下一个版本。
LuminaNextDiT2DModel
class diffusers.LuminaNextDiT2DModel
< source >( sample_size: int = 128 patch_size: typing.Optional[int] = 2 in_channels: typing.Optional[int] = 4 hidden_size: typing.Optional[int] = 2304 num_layers: typing.Optional[int] = 32 num_attention_heads: typing.Optional[int] = 32 num_kv_heads: typing.Optional[int] = None multiple_of: typing.Optional[int] = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: typing.Optional[float] = 1e-05 learn_sigma: typing.Optional[bool] = True qk_norm: typing.Optional[bool] = True cross_attention_dim: typing.Optional[int] = 2048 scaling_factor: typing.Optional[float] = 1.0 )
参数
- sample_size (
int
) — 潜在图像的宽度。这在训练期间是固定的,因为它用于学习位置嵌入的数量。 - patch_size (
int
, optional, (int
,可选,默认为 2)— 图像中每个 patch 的大小。此参数定义了馈送到模型中的 patch 的分辨率。 - in_channels (
int
, optional, 默认为 4) — 模型的输入通道数。通常,这与输入图像中的通道数相匹配。 - hidden_size (
int
, optional, 默认为 4096) — 模型中隐藏层的维度。此参数确定模型隐藏表示的宽度。 - num_layers (
int
, optional, 默认为 32) — 模型中的层数。这定义了神经网络的深度。 - num_attention_heads (
int
, optional, 默认为 32) — 每个注意力层中的注意力头数。此参数指定使用了多少个独立的注意力机制。 - num_kv_heads (
int
, optional, 默认为 8) — 注意力机制中键值头的数量,如果与注意力头的数量不同。如果为 None,则默认为 num_attention_heads。 - multiple_of (
int
, optional, 默认为 256) — 隐藏大小应为其倍数的因子。这可以帮助优化某些硬件配置。 - ffn_dim_multiplier (
float
, optional) — 前馈网络维度的乘数。如果为 None,则使用基于模型配置的默认值。 - norm_eps (
float
, optional, 默认为 1e-5) — 一个小的值,添加到分母中以提高归一化层的数值稳定性。 - learn_sigma (
bool
, optional, 默认为 True) — 模型是否应该学习 sigma 参数,该参数可能与预测中的不确定性或方差有关。 - qk_norm (
bool
, optional, 默认为 True) — 指示是否应归一化注意力机制中的查询 (queries) 和键 (keys)。 - cross_attention_dim (
int
, optional, 默认为 2048) — 文本嵌入的维度。此参数定义了模型中使用的文本表示的大小。 - scaling_factor (
float
, optional, 默认为 1.0) — 应用于模型中某些参数或层的缩放因子。这可以用于调整模型操作的整体规模。
LuminaNextDiT:具有 Transformer 主干的扩散模型。
继承 ModelMixin 和 ConfigMixin 以兼容 diffusers 的采样器 StableDiffusionPipeline。
forward
< source >( hidden_states: Tensor timestep: Tensor encoder_hidden_states: Tensor encoder_mask: Tensor image_rotary_emb: Tensor cross_attention_kwargs: typing.Dict[str, typing.Any] = None return_dict = True )
LuminaNextDiT 的前向传播。