Diffusers 文档
Lumina2Transformer2DModel
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Lumina2Transformer2DModel
Alpha-VLLM 在 Lumina Image 2.0 中引入了用于 3D 视频状数据的扩散 Transformer 模型。
该模型可以通过以下代码片段加载。
from diffusers import Lumina2Transformer2DModel
transformer = Lumina2Transformer2DModel.from_pretrained("Alpha-VLLM/Lumina-Image-2.0", subfolder="transformer", torch_dtype=torch.bfloat16)
Lumina2Transformer2DModel
类 diffusers.Lumina2Transformer2DModel
< 来源 >( sample_size: int = 128 patch_size: int = 2 in_channels: int = 16 out_channels: typing.Optional[int] = None hidden_size: int = 2304 num_layers: int = 26 num_refiner_layers: int = 2 num_attention_heads: int = 24 num_kv_heads: int = 8 multiple_of: int = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: float = 1e-05 scaling_factor: float = 1.0 axes_dim_rope: typing.Tuple[int, int, int] = (32, 32, 32) axes_lens: typing.Tuple[int, int, int] = (300, 512, 512) cap_feat_dim: int = 1024 )
参数
- sample_size (
int
) — 潜在图像的宽度。此参数在训练期间是固定的,因为它用于学习多个位置嵌入。 - patch_size (
int
, 可选, (int
, 可选, 默认为 2) — 图像中每个块的大小。此参数定义输入到模型的块的分辨率。 - in_channels (
int
, 可选, 默认为 4) — 模型的输入通道数。通常,这与输入图像中的通道数匹配。 - hidden_size (
int
, 可选, 默认为 4096) — 模型中隐藏层的维度。此参数决定模型隐藏表示的宽度。 - num_layers (
int
, 可选, 默认为 32) — 模型中的层数。这定义了神经网络的深度。 - num_attention_heads (
int
, 可选, 默认为 32) — 每个注意力层中的注意力头数量。此参数指定使用的独立注意力机制的数量。 - num_kv_heads (
int
, 可选, 默认为 8) — 注意力机制中键值头的数量,如果与注意力头的数量不同。如果为 None,则默认为 num_attention_heads。 - multiple_of (
int
, 可选, 默认为 256) — 隐藏大小应为其倍数的因子。这有助于优化某些硬件配置。 - ffn_dim_multiplier (
float
, 可选) — 前馈网络的维度乘数。如果为 None,它将使用基于模型配置的默认值。 - norm_eps (
float
, 可选, 默认为 1e-5) — 添加到归一化层分母中的一个小值,用于数值稳定性。 - scaling_factor (
float
, 可选, 默认为 1.0) — 应用于模型中某些参数或层的缩放因子。这可用于调整模型操作的整体比例。
Lumina2NextDiT: 具有 Transformer 主干的扩散模型。
Transformer2DModelOutput
类 diffusers.models.modeling_outputs.Transformer2DModelOutput
< 来源 >( sample: torch.Tensor )
参数
- sample (形状为
(batch_size, num_channels, height, width)
的torch.Tensor
或如果是离散的 Transformer2DModel 则为(batch size, num_vector_embeds - 1, num_latent_pixels)
) — 在encoder_hidden_states
输入条件下输出的隐藏状态。如果是离散的,则返回未噪声化潜在像素的概率分布。
Transformer2DModel 的输出。