Diffusers 文档

PriorTransformer

Hugging Face's logo
加入Hugging Face社区

并获得增强文档体验

开始使用

先验Transformer

先验Transformer最初在Ramesh等人的使用CLIP潜变量的分层文本条件图像生成中提出。它用于根据CLIP文本嵌入预测CLIP图像嵌入;图像嵌入通过去噪扩散过程进行预测。

论文摘要如下:

像CLIP这样的对比模型已被证明可以学习图像的鲁棒表示,这些表示捕获了语义和风格。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个根据文本标题生成CLIP图像嵌入的先验,以及一个根据图像嵌入生成图像的解码器。我们表明,显式地生成图像表示可以提高图像的多样性,同时最大程度地减少照片真实感和标题相似性的损失。我们以图像表示为条件的解码器还可以生成图像的变体,这些变体保留了其语义和风格,同时改变了图像表示中不存在的非本质细节。此外,CLIP的联合嵌入空间能够以零样本的方式进行语言引导的图像操作。我们使用扩散模型作为解码器,并对先验使用自回归模型和扩散模型进行实验,发现后者在计算上更有效,并且产生更高质量的样本。

PriorTransformer

class diffusers.PriorTransformer

< >

( num_attention_heads: int = 32 attention_head_dim: int = 64 num_layers: int = 20 embedding_dim: int = 768 num_embeddings = 77 additional_embeddings = 4 dropout: float = 0.0 time_embed_act_fn: str = 'silu' norm_in_type: Optional = None embedding_proj_norm_type: Optional = None encoder_hid_proj_type: Optional = 'linear' added_emb_type: Optional = 'prd' time_embed_dim: Optional = None embedding_proj_dim: Optional = None clip_embed_dim: Optional = None )

参数

  • num_attention_heads (int, 可选, 默认为 32) — 多头注意力使用的头数。
  • attention_head_dim (int, 可选, 默认为 64) — 每个头的通道数。
  • num_layers (int, 可选, 默认为 20) — 使用的 Transformer 块的层数。
  • embedding_dim (int, 可选, 默认为 768) — 模型输入 hidden_states 的维度
  • num_embeddings (int, 可选, 默认为 77) — 模型输入 hidden_states 的嵌入数量
  • additional_embeddings (int, 可选, 默认为 4) — 附加到投影后的 hidden_states 的额外标记数量。使用的 hidden_states 的实际长度为 num_embeddings + additional_embeddings
  • dropout (float, 可选, 默认为 0.0) — 使用的 dropout 概率。
  • time_embed_act_fn (str, 可选, 默认为 ‘silu’) — 用于创建时间步长嵌入的激活函数。
  • norm_in_type (str, 可选, 默认为 None) — 在传递到 Transformer 块之前,应用于隐藏状态的归一化层。如果不需要归一化,则将其设置为 None
  • embedding_proj_norm_type (str可选,默认为 None) — 应用于输入 proj_embedding 的归一化层。如果不需要归一化,则将其设置为 None
  • encoder_hid_proj_type (str可选,默认为 linear) — 应用于输入 encoder_hidden_states 的投影层。如果 encoder_hidden_statesNone,则将其设置为 None
  • added_emb_type (str可选,默认为 prd) — 用于调节模型的额外嵌入。从 prdNone 中选择。如果选择 prd,它将根据 unclip 论文 https://arxiv.org/abs/2204.06125 中提出的方法,预先添加一个表示文本嵌入和图像嵌入之间(量化)点积的标记。如果为 None,则不会预先添加任何额外嵌入。
  • time_embed_dim (int可选,默认为 None) -- 时间步长嵌入的维度。如果为 None,则设置为 num_attention_heads * attention_head_dim
  • embedding_proj_dim (int可选,默认为 None) — proj_embedding 的维度。如果为 None,则设置为 embedding_dim
  • clip_embed_dim (int可选,默认为 None) — 输出的维度。如果为 None,则设置为 embedding_dim

一个先验 Transformer 模型。

前向传播

< >

( hidden_states timestep: Union proj_embedding: Tensor encoder_hidden_states: Optional = None attention_mask: Optional = None return_dict: bool = True ) PriorTransformerOutputtuple

参数

  • hidden_states (torch.Tensor 形状为 (batch_size, embedding_dim)) — 当前预测的图像嵌入。
  • timestep (torch.LongTensor) — 当前去噪步骤。
  • encoder_hidden_states (torch.Tensor 形状为 (batch_size, num_embeddings, embedding_dim)) — 用于条件化去噪过程的文本嵌入的隐藏状态。
  • attention_mask (torch.BoolTensor 形状为 (batch_size, num_embeddings)) — 文本嵌入的文本掩码。
  • return_dict (bool, 可选, 默认为 True) — 是否返回 PriorTransformerOutput 而不是普通元组。

返回

PriorTransformerOutputtuple

如果 return_dict 为 True,则返回 PriorTransformerOutput,否则返回一个元组,其中第一个元素是样本张量。

PriorTransformer 的前向方法。

set_attn_processor

< >

( processor: Union )

参数

  • processor (dict of AttentionProcessor 或仅 AttentionProcessor) — 将被设置为**所有**Attention层的处理器的已实例化的处理器类或处理器类的字典。

    如果processor是字典,则键需要定义到相应交叉注意力处理器的路径。在设置可训练注意力处理器时强烈建议这样做。

设置用于计算注意力的注意力处理器。

set_default_attn_processor

< >

( )

禁用自定义注意力处理器并设置默认注意力实现。

PriorTransformerOutput

diffusers.models.transformers.prior_transformer.PriorTransformerOutput

< >

( predicted_image_embedding: Tensor )

参数

  • predicted_image_embedding (torch.Tensor 形状为 (batch_size, embedding_dim)) — 基于 CLIP 文本嵌入输入的预测的 CLIP 图像嵌入。

PriorTransformer 的输出。

< > 在 GitHub 上更新