Diffusers

加入 Hugging Face 社区

并获得增强文档体验

协作模型、数据集和空间

使用加速推理获得更快的示例

在文档主题之间切换

开始使用

扰动注意力引导

扰动注意力引导 (PAG) 是一种新的扩散采样引导方法，可在无条件和有条件设置下提高样本质量，而无需进一步训练或集成外部模块。PAG 旨在通过考虑自注意力机制捕获结构信息的能力，在整个去噪过程中逐步增强合成样本的结构。它涉及通过用恒等矩阵替换扩散 U-Net 中选定的自注意力映射来生成具有退化结构的中间样本，并引导去噪过程远离这些退化样本。

本指南将向您展示如何在各种任务和用例中使用 PAG。

常规任务

您可以将 PAG 应用于 StableDiffusionXLPipeline 以执行文本到图像、图像到图像和修复等任务。要为特定任务启用 PAG，请使用 AutoPipeline API 和 enable_pag=True 标志以及 pag_applied_layers 参数加载管道。

🤗 Diffusers 目前仅支持使用选定的 SDXL 管道和 PixArtSigmaPAGPipeline 使用 PAG。但是，如果您想将 PAG 支持添加到新的管道中，请随时打开功能请求！

文本到图像

图像到图像

修复

PAG 与 ControlNet

要将 PAG 与 ControlNet 一起使用，首先创建一个 controlnet。然后，将 controlnet 和其他 PAG 参数传递到指定任务的 AutoPipeline 的 from_pretrained 方法。

from diffusers import AutoPipelineForText2Image, ControlNetModel
import torch

controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-canny-sdxl-1.0", torch_dtype=torch.float16
)

pipeline = AutoPipelineForText2Image.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    enable_pag=True,
    pag_applied_layers="mid",
    torch_dtype=torch.float16
)
pipeline.enable_model_cpu_offload()

如果您已经拥有一个 controlnet 管道并希望启用 PAG，则可以使用 from_pipe API：AutoPipelineForText2Image.from_pipe(pipeline_controlnet, enable_pag=True)

您可以像平时使用 ControlNet 管道一样使用该管道，并可以选择指定 pag_scale 参数。请注意，PAG 适用于无条件生成。在此示例中，我们将生成没有提示的图像。

from diffusers.utils import load_image
canny_image = load_image(
    "https://huggingface.co/datasets/YiYiXu/testing-images/resolve/main/pag_control_input.png"
)

for pag_scale in [0.0, 3.0]:
    generator = torch.Generator(device="cpu").manual_seed(1)
    images = pipeline(
        prompt="",
        controlnet_conditioning_scale=controlnet_conditioning_scale,
        image=canny_image,
        num_inference_steps=50,
        guidance_scale=0,
        generator=generator,
        pag_scale=pag_scale,
    ).images
    images[0]

未使用 PAG 生成的图像

使用 PAG 生成的图像

PAG 与 IP-Adapter

IP-Adapter 是一种流行的模型，可以插入扩散模型以启用图像提示，而无需对底层模型进行任何更改。您可以在加载了 IP-Adapter 的管道上启用 PAG。

from diffusers import AutoPipelineForText2Image
from diffusers.utils import load_image
from transformers import CLIPVisionModelWithProjection
import torch

image_encoder = CLIPVisionModelWithProjection.from_pretrained(
    "h94/IP-Adapter",
    subfolder="models/image_encoder",
    torch_dtype=torch.float16
)

pipeline = AutoPipelineForText2Image.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    image_encoder=image_encoder,
    enable_pag=True,
    torch_dtype=torch.float16
).to("cuda")

pipeline.load_ip_adapter("h94/IP-Adapter", subfolder="sdxl_models", weight_name="ip-adapter-plus_sdxl_vit-h.bin")

pag_scales = 5.0
ip_adapter_scales = 0.8

image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/ip_adapter_diner.png")

pipeline.set_ip_adapter_scale(ip_adapter_scale)
generator = torch.Generator(device="cpu").manual_seed(0)
images = pipeline(
    prompt="a polar bear sitting in a chair drinking a milkshake",
    ip_adapter_image=image,
    negative_prompt="deformed, ugly, wrong proportion, low res, bad anatomy, worst quality, low quality",
    num_inference_steps=25,
    guidance_scale=3.0,
    generator=generator,
    pag_scale=pag_scale,
).images
images[0]

PAG 减少了伪影并提高了整体构图。

未使用 PAG 生成的图像

使用 PAG 生成的图像

配置参数

pag_applied_layers

pag_applied_layers 参数允许您指定 PAG 应用于哪些层。默认情况下，它仅应用于中间块。更改此设置将显着影响输出。您可以使用 set_pag_applied_layers 方法在管道创建后调整 PAG 层，帮助您找到模型的最佳层。

例如，以下是使用 pag_layers = ["down.block_2"] 和 pag_layers = ["down.block_2", "up.block_1.attentions_0"] 生成的图像。

prompt = "an insect robot preparing a delicious meal, anime style"
pipeline.set_pag_applied_layers(pag_layers)
generator = torch.Generator(device="cpu").manual_seed(0)
images = pipeline(
    prompt=prompt,
    num_inference_steps=25,
    guidance_scale=guidance_scale,
    generator=generator,
    pag_scale=pag_scale,
).images
images[0]

down.block_2 + up.block1.attentions_0

down.block_2

< > 在 GitHub 上更新

←IP-Adapter ControlNet→