Diffusers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

LuminaNextDiT2DModel

Lumina-T2X 中用于 2D 数据的下一代扩散 Transformer 模型。

LuminaNextDiT2DModel

类 diffusers.LuminaNextDiT2DModel

< 源 >

( sample_size: int = 128 patch_size: typing.Optional[int] = 2 in_channels: typing.Optional[int] = 4 hidden_size: typing.Optional[int] = 2304 num_layers: typing.Optional[int] = 32 num_attention_heads: typing.Optional[int] = 32 num_kv_heads: typing.Optional[int] = None multiple_of: typing.Optional[int] = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: typing.Optional[float] = 1e-05 learn_sigma: typing.Optional[bool] = True qk_norm: typing.Optional[bool] = True cross_attention_dim: typing.Optional[int] = 2048 scaling_factor: typing.Optional[float] = 1.0 )

参数

sample_size (int) — 潜在图像的宽度。由于此参数用于学习位置嵌入，因此在训练期间是固定的。
patch_size (int, 可选, (int, 可选, 默认为 2) — 图像中每个 patch 的大小。此参数定义了馈送到模型的 patch 分辨率。
in_channels (int, 可选, 默认为 4) — 模型的输入通道数。通常与输入图像的通道数匹配。
hidden_size (int, 可选, 默认为 4096) — 模型中隐藏层的维度。此参数决定了模型隐藏表示的宽度。
num_layers (int, 可选, 默认为 32) — 模型中的层数。这定义了神经网络的深度。
num_attention_heads (int, 可选, 默认为 32) — 每个注意力层中的注意力头数。此参数指定了使用的独立注意力机制的数量。
num_kv_heads (int, 可选, 默认为 8) — 注意力机制中 key-value 头的数量，如果与注意力头数量不同。如果为 None，则默认为 num_attention_heads。
multiple_of (int, 可选, 默认为 256) — 隐藏大小应为的倍数。这有助于优化某些硬件配置。
ffn_dim_multiplier (float, 可选) — 前馈网络维度的乘数。如果为 None，则根据模型配置使用默认值。
norm_eps (float, 可选, 默认为 1e-5) — 添加到归一化层分母的小值，用于数值稳定性。
learn_sigma (bool, 可选, 默认为 True) — 模型是否应学习 sigma 参数，该参数可能与预测中的不确定性或方差相关。
qk_norm (bool, 可选, 默认为 True) — 指示注意力机制中的查询和键是否应被归一化。
cross_attention_dim (int, 可选, 默认为 2048) — 文本嵌入的维度。此参数定义了模型中使用的文本表示的大小。
scaling_factor (float, 可选, 默认为 1.0) — 应用于模型中某些参数或层的缩放因子。这可用于调整模型操作的整体比例。

LuminaNextDiT：带有 Transformer 主干的扩散模型。

继承 ModelMixin 和 ConfigMixin 以与 diffusers 的采样器 StableDiffusionPipeline 兼容。

前向

< 源 >

( hidden_states: Tensor timestep: Tensor encoder_hidden_states: Tensor encoder_mask: Tensor image_rotary_emb: Tensor cross_attention_kwargs: typing.Dict[str, typing.Any] = None return_dict = True )

参数

hidden_states (torch.Tensor) — 形状为 (N, C, H, W) 的输入张量。
timestep (torch.Tensor) — 形状为 (N,) 的扩散时间步长张量。
encoder_hidden_states (torch.Tensor) — 形状为 (N, D) 的标题特征张量。
encoder_mask (torch.Tensor) — 形状为 (N, L) 的标题掩码张量。

LuminaNextDiT 的前向传播。

< > 在 GitHub 上更新

←Lumina2Transformer2DModel MochiTransformer3DModel→