Diffusers 文档

UNet3DConditionModel

Diffusers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

UNet3DConditionModel

UNet 模型最初由 Ronneberger 等人提出，用于生物医学图像分割，但它也常用于 🤗 Diffusers，因为它输出的图像大小与输入相同。它是扩散系统最重要的组件之一，因为它促进了实际的扩散过程。🤗 Diffusers 中有几种 UNet 模型变体，具体取决于其维度数量以及是否为条件模型。这是一个 3D UNet 条件模型。

论文摘要如下：

人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略强烈依赖于数据增强，以更有效地利用可用的带注释样本。该架构包括一个收缩路径用于捕获上下文，以及一个对称的扩展路径，用于实现精确的定位。我们展示了这样的网络可以从很少的图像进行端到端训练，并且在 ISBI 挑战赛中，在电子显微镜堆栈中分割神经元结构方面，其性能优于先前的最佳方法（滑动窗口卷积网络）。使用相同网络在透射光显微镜图像（相差和 DIC）上训练，我们在 2015 年 ISBI 细胞跟踪挑战赛的这些类别中以大幅优势获胜。此外，该网络速度快。在最新的 GPU 上，分割一张 512x512 图像所需时间不到一秒。完整的实现（基于 Caffe）和训练好的网络可在 http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net 获取。

UNet3DConditionModel

class diffusers.UNet3DConditionModel

< 来源 >

( sample_size: typing.Optional[int] = None in_channels: int = 4 out_channels: int = 4 down_block_types: typing.Tuple[str, ...] = ('CrossAttnDownBlock3D', 'CrossAttnDownBlock3D', 'CrossAttnDownBlock3D', 'DownBlock3D') up_block_types: typing.Tuple[str, ...] = ('UpBlock3D', 'CrossAttnUpBlock3D', 'CrossAttnUpBlock3D', 'CrossAttnUpBlock3D') block_out_channels: typing.Tuple[int, ...] = (320, 640, 1280, 1280) layers_per_block: int = 2 downsample_padding: int = 1 mid_block_scale_factor: float = 1 act_fn: str = 'silu' norm_num_groups: typing.Optional[int] = 32 norm_eps: float = 1e-05 cross_attention_dim: int = 1024 attention_head_dim: typing.Union[int, typing.Tuple[int]] = 64 num_attention_heads: typing.Union[int, typing.Tuple[int], NoneType] = None time_cond_proj_dim: typing.Optional[int] = None )

参数

sample_size (int 或 Tuple[int, int], 可选, 默认为 None) — 输入/输出样本的高度和宽度。
in_channels (int, 可选, 默认为 4) — 输入样本中的通道数。
out_channels (int, 可选, 默认为 4) — 输出中的通道数。
down_block_types (Tuple[str], 可选, 默认为 ("CrossAttnDownBlock3D", "CrossAttnDownBlock3D", "CrossAttnDownBlock3D", "DownBlock3D")) — 要使用的下采样块的元组。
up_block_types (Tuple[str], 可选, 默认为 ("UpBlock3D", "CrossAttnUpBlock3D", "CrossAttnUpBlock3D", "CrossAttnUpBlock3D")) — 要使用的上采样块的元组。
block_out_channels (Tuple[int], 可选, 默认为 (320, 640, 1280, 1280)) — 每个块的输出通道元组。
layers_per_block (int, 可选, 默认为 2) — 每个块的层数。
downsample_padding (int, 可选, 默认为 1) — 用于下采样卷积的填充。
mid_block_scale_factor (float, 可选, 默认为 1.0) — 用于中间块的比例因子。
act_fn (str, 可选, 默认为 "silu") — 要使用的激活函数。
norm_num_groups (int, 可选, 默认为 32) — 用于归一化的组数。如果为 None，则在后处理中跳过归一化和激活层。
norm_eps (float, 可选, 默认为 1e-5) — 用于归一化的 epsilon 值。
cross_attention_dim (int, 可选, 默认为 1024) — 交叉注意力特征的维度。
attention_head_dim (int, 可选, 默认为 64) — 注意力头的维度。
num_attention_heads (int, 可选) — 注意力头的数量。
time_cond_proj_dim (int, 可选, 默认为 None) — 时间步嵌入中 cond_proj 层的维度。

一个条件 3D UNet 模型，它接受一个噪声样本、条件状态和时间步，并返回一个样本形状的输出。

此模型继承自 ModelMixin。有关所有模型实现的通用方法（如下载或保存），请参阅超类文档。

disable_freeu

< 来源 >

( )

禁用 FreeU 机制。

启用前向分块

< 来源 >

( chunk_size: typing.Optional[int] = None dim: int = 0 )

参数

chunk_size (int, 可选) — 前馈层的块大小。如果未指定，将对 dim 等于 dim 的每个张量单独运行前馈层。
dim (int, 可选, 默认为 0) — 应该分块进行前馈计算的维度。选择 dim=0 (批次) 或 dim=1 (序列长度)。

设置注意力处理器以使用分块前馈层。

enable_freeu

< 来源 >

( s1 s2 b1 b2 )

参数

s1 (float) — 用于阶段 1 的缩放因子，以衰减跳跃特征的贡献。这样做是为了减轻增强去噪过程中的“过度平滑效应”。
s2 (float) — 用于阶段 2 的缩放因子，以衰减跳跃特征的贡献。这样做是为了减轻增强去噪过程中的“过度平滑效应”。
b1 (float) — 用于阶段 1 的缩放因子，以放大骨干特征的贡献。
b2 (float) — 用于阶段 2 的缩放因子，以放大骨干特征的贡献。

启用来自 https://huggingface.ac.cn/papers/2309.11497 的 FreeU 机制。

缩放因子后面的后缀表示它们正在应用的阶段块。

请参阅官方仓库，了解适用于 Stable Diffusion v1、v2 和 Stable Diffusion XL 等不同管道的已知良好值组合。

前向

< 来源 >

( sample: Tensor timestep: typing.Union[torch.Tensor, float, int] encoder_hidden_states: Tensor class_labels: typing.Optional[torch.Tensor] = None timestep_cond: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None cross_attention_kwargs: typing.Optional[typing.Dict[str, typing.Any]] = None down_block_additional_residuals: typing.Optional[typing.Tuple[torch.Tensor]] = None mid_block_additional_residual: typing.Optional[torch.Tensor] = None return_dict: bool = True ) → UNet3DConditionOutput 或 tuple

参数

sample (torch.Tensor) — 带有以下形状的噪声输入张量 (batch, num_channels, num_frames, height, width。
timestep (torch.Tensor 或 float 或 int) — 去噪输入的步长数。
encoder_hidden_states (torch.Tensor) — 编码器隐藏状态，形状为 (batch, sequence_length, feature_dim)。
class_labels (torch.Tensor, 可选, 默认为 None) — 用于条件作用的可选类别标签。它们的嵌入将与时间步嵌入求和。
timestep_cond — (torch.Tensor, 可选, 默认为 None)：时间步的条件嵌入。如果提供，嵌入将与通过 self.time_embedding 层传递的样本求和，以获得时间步嵌入。
attention_mask (torch.Tensor, 可选, 默认为 None) — 形状为 (batch, key_tokens) 的注意力掩码应用于 encoder_hidden_states。如果为 1，则保留掩码，否则如果为 0 则丢弃。掩码将转换为偏差，该偏差会向与“丢弃”标记对应的注意力分数添加较大的负值。
cross_attention_kwargs (dict, 可选) — 一个 kwargs 字典，如果指定，将作为 self.processor 中定义的 AttentionProcessor 的参数传递给 diffusers.models.attention_processor。
down_block_additional_residuals — (tuple of torch.Tensor, 可选)：如果指定，将添加到下部 unet 块的残差中的张量元组。
mid_block_additional_residual — (torch.Tensor, 可选)：如果指定，将添加到中间 unet 块的残差中的张量。
return_dict (bool, 可选, 默认为 True) — 是否返回 UNet3DConditionOutput 而不是普通元组。
cross_attention_kwargs (dict, 可选) — 一个 kwargs 字典，如果指定，将作为参数传递给 AttnProcessor。

UNet3DConditionOutput 或 tuple

如果 return_dict 为 True，则返回 UNet3DConditionOutput，否则返回一个 tuple，其中第一个元素是样本张量。

UNet3DConditionModel 前向方法。

融合 qkv 投影

< 来源 >

( )

启用融合 QKV 投影。对于自注意力模块，所有投影矩阵（即查询、键、值）都将融合。对于交叉注意力模块，键和值投影矩阵将融合。

此 API 是 🧪 实验性的。

set_attention_slice

< 来源 >

( slice_size: typing.Union[str, int, typing.List[int]] )

参数

slice_size (str 或 int 或 list(int), 可选, 默认为 "auto") — 当为 "auto" 时，输入到注意力头的数据减半，因此注意力分两步计算。如果为 "max"，则通过一次只运行一个切片来节省最大内存。如果提供了数字，则使用 attention_head_dim // slice_size 个切片。在这种情况下，attention_head_dim 必须是 slice_size 的倍数。

启用分片注意力计算。

启用此选项后，注意力模块会将输入张量分片以分步计算注意力。这对于节省内存非常有用，但会稍微降低速度。

设置注意力处理器

< 来源 >

( processor: typing.Union[diffusers.models.attention_processor.AttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor2_0, diffusers.models.attention_processor.JointAttnProcessor2_0, diffusers.models.attention_processor.PAGJointAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGJointAttnProcessor2_0, diffusers.models.attention_processor.FusedJointAttnProcessor2_0, diffusers.models.attention_processor.AllegroAttnProcessor2_0, diffusers.models.attention_processor.AuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FusedAuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.CogVideoXAttnProcessor2_0, diffusers.models.attention_processor.FusedCogVideoXAttnProcessor2_0, diffusers.models.attention_processor.XFormersAttnAddedKVProcessor, diffusers.models.attention_processor.XFormersAttnProcessor, diffusers.models.attention_processor.XLAFlashAttnProcessor2_0, diffusers.models.attention_processor.AttnProcessorNPU, diffusers.models.attention_processor.AttnProcessor2_0, diffusers.models.attention_processor.MochiVaeAttnProcessor2_0, diffusers.models.attention_processor.MochiAttnProcessor2_0, diffusers.models.attention_processor.StableAudioAttnProcessor2_0, diffusers.models.attention_processor.HunyuanAttnProcessor2_0, diffusers.models.attention_processor.FusedHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.LuminaAttnProcessor2_0, diffusers.models.attention_processor.FusedAttnProcessor2_0, diffusers.models.attention_processor.CustomDiffusionXFormersAttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor2_0, diffusers.models.attention_processor.SlicedAttnProcessor, diffusers.models.attention_processor.SlicedAttnAddedKVProcessor, diffusers.models.attention_processor.SanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGSanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySanaLinearAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleLinearAttention, diffusers.models.attention_processor.SanaMultiscaleAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleAttentionProjection, diffusers.models.attention_processor.IPAdapterAttnProcessor, diffusers.models.attention_processor.IPAdapterAttnProcessor2_0, diffusers.models.attention_processor.IPAdapterXFormersAttnProcessor, diffusers.models.attention_processor.SD3IPAdapterJointAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.LoRAAttnProcessor, diffusers.models.attention_processor.LoRAAttnProcessor2_0, diffusers.models.attention_processor.LoRAXFormersAttnProcessor, diffusers.models.attention_processor.LoRAAttnAddedKVProcessor, typing.Dict[str, typing.Union[diffusers.models.attention_processor.AttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor, diffusers.models.attention_processor.AttnAddedKVProcessor2_0, diffusers.models.attention_processor.JointAttnProcessor2_0, diffusers.models.attention_processor.PAGJointAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGJointAttnProcessor2_0, diffusers.models.attention_processor.FusedJointAttnProcessor2_0, diffusers.models.attention_processor.AllegroAttnProcessor2_0, diffusers.models.attention_processor.AuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FusedAuraFlowAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0, diffusers.models.attention_processor.FluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0, diffusers.models.attention_processor.FusedFluxAttnProcessor2_0_NPU, diffusers.models.attention_processor.CogVideoXAttnProcessor2_0, diffusers.models.attention_processor.FusedCogVideoXAttnProcessor2_0, diffusers.models.attention_processor.XFormersAttnAddedKVProcessor, diffusers.models.attention_processor.XFormersAttnProcessor, diffusers.models.attention_processor.XLAFlashAttnProcessor2_0, diffusers.models.attention_processor.AttnProcessorNPU, diffusers.models.attention_processor.AttnProcessor2_0, diffusers.models.attention_processor.MochiVaeAttnProcessor2_0, diffusers.models.attention_processor.MochiAttnProcessor2_0, diffusers.models.attention_processor.StableAudioAttnProcessor2_0, diffusers.models.attention_processor.HunyuanAttnProcessor2_0, diffusers.models.attention_processor.FusedHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGHunyuanAttnProcessor2_0, diffusers.models.attention_processor.LuminaAttnProcessor2_0, diffusers.models.attention_processor.FusedAttnProcessor2_0, diffusers.models.attention_processor.CustomDiffusionXFormersAttnProcessor, diffusers.models.attention_processor.CustomDiffusionAttnProcessor2_0, diffusers.models.attention_processor.SlicedAttnProcessor, diffusers.models.attention_processor.SlicedAttnAddedKVProcessor, diffusers.models.attention_processor.SanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGSanaLinearAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySanaLinearAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleLinearAttention, diffusers.models.attention_processor.SanaMultiscaleAttnProcessor2_0, diffusers.models.attention_processor.SanaMultiscaleAttentionProjection, diffusers.models.attention_processor.IPAdapterAttnProcessor, diffusers.models.attention_processor.IPAdapterAttnProcessor2_0, diffusers.models.attention_processor.IPAdapterXFormersAttnProcessor, diffusers.models.attention_processor.SD3IPAdapterJointAttnProcessor2_0, diffusers.models.attention_processor.PAGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.PAGCFGIdentitySelfAttnProcessor2_0, diffusers.models.attention_processor.LoRAAttnProcessor, diffusers.models.attention_processor.LoRAAttnProcessor2_0, diffusers.models.attention_processor.LoRAXFormersAttnProcessor, diffusers.models.attention_processor.LoRAAttnAddedKVProcessor]]] )

参数

processor (AttentionProcessor 的 dict 或仅 AttentionProcessor) — 实例化处理器类或处理器类字典，将作为所有 Attention 层的处理器。

如果 processor 是一个字典，则键需要定义到相应交叉注意力处理器的路径。在设置可训练注意力处理器时，强烈建议这样做。

设置用于计算注意力的注意力处理器。

set_default_attn_processor

< source >

( )

禁用自定义注意力处理器并设置默认注意力实现。

unfuse_qkv_projections

< source >

( )

如果启用了，则禁用融合的 QKV 投影。

此 API 是 🧪 实验性的。

UNet3DConditionOutput

class diffusers.models.unets.unet_3d_condition.UNet3DConditionOutput

< source >

( sample: Tensor )

参数

sample (形状为 (batch_size, num_channels, num_frames, height, width) 的 torch.Tensor) — 条件于 encoder_hidden_states 输入的隐藏状态输出。模型最后一层的输出。

UNet3DConditionModel 的输出。

< > 在 GitHub 上更新

←UNet2DModel UNetMotionModel→