Diffusers 文档
WanTransformer3D模型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
WanTransformer3D模型
阿里巴巴 Wan 团队在 Wan 2.1 中引入了一个用于 3D 视频类数据的扩散 Transformer 模型。
该模型可以通过以下代码片段加载。
from diffusers import WanTransformer3DModel
transformer = WanTransformer3DModel.from_pretrained("Wan-AI/Wan2.1-T2V-1.3B-Diffusers", subfolder="transformer", torch_dtype=torch.bfloat16)
WanTransformer3DModel
class diffusers.WanTransformer3DModel
< 源代码 >( patch_size: typing.Tuple[int] = (1, 2, 2) num_attention_heads: int = 40 attention_head_dim: int = 128 in_channels: int = 16 out_channels: int = 16 text_dim: int = 4096 freq_dim: int = 256 ffn_dim: int = 13824 num_layers: int = 40 cross_attn_norm: bool = True qk_norm: typing.Optional[str] = 'rms_norm_across_heads' eps: float = 1e-06 image_dim: typing.Optional[int] = None added_kv_proj_dim: typing.Optional[int] = None rope_max_seq_len: int = 1024 pos_embed_seq_len: typing.Optional[int] = None )
参数
- patch_size (
Tuple[int]
, 默认值为(1, 2, 2)
) — 视频嵌入的 3D 补丁尺寸(t_patch, h_patch, w_patch)。 - num_attention_heads (
int
, 默认值为40
) — 文本嵌入的固定长度。 - attention_head_dim (
int
, 默认值为128
) — 每个头部的通道数。 - in_channels (
int
, 默认值为16
) — 输入通道数。 - out_channels (
int
, 默认值为16
) — 输出通道数。 - text_dim (
int
, 默认值为512
) — 文本嵌入的输入维度。 - freq_dim (
int
, 默认值为256
) — 正弦时间嵌入的维度。 - ffn_dim (
int
, 默认值为13824
) — 前馈网络中的中间维度。 - num_layers (
int
, 默认值为40
) — 要使用的 Transformer 块层数。 - window_size (
Tuple[int]
, 默认值为(-1, -1)
) — 局部注意力窗口大小(-1 表示全局注意力)。 - cross_attn_norm (
bool
, 默认值为True
) — 启用交叉注意力归一化。 - qk_norm (
bool
, 默认值为True
) — 启用查询/键归一化。 - eps (
float
, 默认值为1e-6
) — 归一化层的 Epsilon 值。 - add_img_emb (
bool
, 默认值为False
) — 是否使用 img_emb。 - added_kv_proj_dim (
int
, 可选, 默认值为None
) — 额外键和值投影的通道数。如果为None
,则不使用投影。
Wan 模型中使用的视频类数据的 Transformer 模型。
Transformer2DModelOutput
class diffusers.models.modeling_outputs.Transformer2DModelOutput
< 源代码 >( sample: torch.Tensor )
参数
- sample (形状为
(batch_size, num_channels, height, width)
的torch.Tensor
;如果 Transformer2DModel 为离散型,则形状为(batch size, num_vector_embeds - 1, num_latent_pixels)
) — 在encoder_hidden_states
输入上条件化的隐藏状态输出。如果是离散型,则返回未加噪的潜在像素的概率分布。
Transformer2DModel 的输出。