UNetMotionModel
该 UNet 模型最初由 Ronneberger 等人提出,用于生物医学图像分割,但在 🤗 Diffusers 中也很常见,因为它输出与输入大小相同的图像。它是扩散系统中最重要的组成部分之一,因为它促进了实际的扩散过程。 🤗 Diffusers 中有几种 UNet 模型的变体,具体取决于其维数以及它是否是条件模型。这是一个 2D UNet 模型。
论文的摘要是
人们普遍认为,成功训练深度网络需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,该策略强烈依赖于数据增强,以更有效地利用可用的带注释的样本。该架构包括一个收缩路径来捕获上下文,以及一个对称的扩展路径,它能够进行精确的定位。我们表明,这种网络可以从很少的图像中端到端地进行训练,并且在 ISBI 用于电子显微镜堆栈中神经元结构分割的挑战中,它优于先前的最佳方法(滑动窗口卷积网络)。使用在透射光显微镜图像(相位对比和 DIC)上训练的相同网络,我们在这些类别的 ISBI 细胞跟踪挑战 2015 中获得了巨大优势。此外,该网络速度很快。对 512x512 图像的分割在最新的 GPU 上不到一秒钟。完整的实现(基于 Caffe)和训练后的网络可在 http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net 获取。
UNetMotionModel
class diffusers.UNetMotionModel
< 源代码 >( sample_size: Optional = None in_channels: int = 4 out_channels: int = 4 down_block_types: Tuple = ('CrossAttnDownBlockMotion', 'CrossAttnDownBlockMotion', 'CrossAttnDownBlockMotion', 'DownBlockMotion') up_block_types: Tuple = ('UpBlockMotion', 'CrossAttnUpBlockMotion', 'CrossAttnUpBlockMotion', 'CrossAttnUpBlockMotion') block_out_channels: Tuple = (320, 640, 1280, 1280) layers_per_block: Union = 2 downsample_padding: int = 1 mid_block_scale_factor: float = 1 act_fn: str = 'silu' norm_num_groups: int = 32 norm_eps: float = 1e-05 cross_attention_dim: int = 1280 transformer_layers_per_block: Union = 1 reverse_transformer_layers_per_block: Union = None temporal_transformer_layers_per_block: Union = 1 reverse_temporal_transformer_layers_per_block: Union = None transformer_layers_per_mid_block: Union = None temporal_transformer_layers_per_mid_block: Union = 1 use_linear_projection: bool = False num_attention_heads: Union = 8 motion_max_seq_length: int = 32 motion_num_attention_heads: Union = 8 reverse_motion_num_attention_heads: Union = None use_motion_mid_block: bool = True mid_block_layers: int = 1 encoder_hid_dim: Optional = None encoder_hid_dim_type: Optional = None addition_embed_type: Optional = None addition_time_embed_dim: Optional = None projection_class_embeddings_input_dim: Optional = None time_cond_proj_dim: Optional = None )
一个修改后的条件 2D UNet 模型,它接收噪声样本、条件状态和时间步长,并返回形状输出样本。
此模型继承自 ModelMixin。查看超类文档以了解为所有模型实现的通用方法(例如下载或保存)。
禁用 FreeU 机制。
enable_freeu
< 源代码 >( s1: float s2: float b1: float b2: float )
启用来自 https://arxiv.org/abs/2309.11497 的 FreeU 机制。
缩放因子后面的后缀表示它们应用到的阶段块。
有关已知对稳定扩散 v1、v2 和稳定扩散 XL 等不同管道有效的值组合,请参阅 官方存储库。
forward
< source >( sample: Tensor timestep: Union encoder_hidden_states: Tensor timestep_cond: Optional = None attention_mask: Optional = None cross_attention_kwargs: Optional = None added_cond_kwargs: Optional = None down_block_additional_residuals: Optional = None mid_block_additional_residual: Optional = None return_dict: bool = True ) → UNetMotionOutput
or tuple
参数
- sample (
torch.Tensor
) — 具有以下形状的噪声输入张量(batch, num_frames, channel, height, width
。 - timestep (
torch.Tensor
orfloat
orint
) — 用于对输入进行去噪的步数。 - encoder_hidden_states (
torch.Tensor
) — 形状为(batch, sequence_length, feature_dim)
的编码器隐藏状态。 timestep_cond — (torch.Tensor
, 可选, 默认值为None
): 时间步长的条件嵌入。 如果提供,嵌入将与通过self.time_embedding
层传递的样本相加,以获得时间步长嵌入。 - attention_mask (
torch.Tensor
, 可选, 默认值为None
) — 形状为(batch, key_tokens)
的注意力掩码应用于encoder_hidden_states
。 如果为1
,则保留掩码,否则如果为0
,则将其丢弃。 掩码将被转换为偏差,它向与“丢弃”标记相对应的注意力分数添加较大的负值。 - cross_attention_kwargs (
dict
, 可选) — 如果指定,则将此关键字参数字典传递给 diffusers.models.attention_processor 中的self.processor
下定义的AttentionProcessor
。down_block_additional_residuals — (tuple
oftorch.Tensor
, 可选): 如果指定,则将此张量元组添加到下采样 U-Net 模块的残差中。mid_block_additional_residual — (torch.Tensor
, 可选): 如果指定,则将此张量添加到中间 U-Net 模块的残差中。 - return_dict (
bool
, 可选,默认值为True
) — 是否返回UNetMotionOutput
而不是普通元组。
返回
UNetMotionOutput
或 tuple
如果 return_dict
为 True,则返回 UNetMotionOutput
,否则返回一个 tuple
,其中第一个元素是样本张量。
The UNetMotionModel 正向方法。
仅冻结 UNet2DConditionModel 的权重,并保留运动模块以供微调。
启用融合的 QKV 投影。对于自注意力模块,所有投影矩阵(即查询、键、值)都会被融合。对于交叉注意力模块,键和值投影矩阵将被融合。
此 API 🧪 处于实验阶段。
set_attn_processor
< source >( processor: Union )
设置用于计算注意力的注意力处理器。
禁用自定义注意力处理器并设置默认注意力实现。
UNet3DConditionOutput
这是 UNet3DConditionModel 的输出。