Diffusers 文档

T2I-Adapter

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

T2I-Adapter

T2I-Adapter 是一种轻量级适配器,用于控制并为文本到图像模型提供更准确的结构引导。它的工作原理是学习文本到图像模型的内部知识与外部控制信号(例如边缘检测或深度估计)之间的对齐。

T2I-Adapter 的设计很简单,条件被传递到四个特征提取块和三个降采样块。这使得它能够快速轻松地为不同的条件训练不同的适配器,这些适配器可以插入文本到图像模型中。T2I-Adapter 类似于 ControlNet,但它更小(约 7700 万个参数)且速度更快,因为它在扩散过程中只运行一次。缺点是性能可能略低于 ControlNet。

本指南将向您展示如何将 T2I-Adapter 与不同的 Stable Diffusion 模型一起使用,以及如何组合多个 T2I-Adapter 以施加多个条件。

有几种 T2I-Adapter 可用于不同的条件,例如调色板、深度、草图、姿势和分割。查看 TencentARC 存储库以试用它们!

在开始之前,请确保已安装以下库。

# uncomment to install the necessary libraries in Colab
#!pip install -q diffusers accelerate controlnet-aux==0.0.7

文本到图像

文本到图像模型依靠提示来生成图像,但有时,仅靠文本可能不足以提供更准确的结构引导。T2I-Adapter 允许您提供额外的控制图像来指导生成过程。例如,您可以提供 Canny 图像(黑色背景上图像的白色轮廓)来引导模型生成具有类似结构的图像。

Stable Diffusion 1.5
Stable Diffusion XL

使用 opencv 库 创建 Canny 图像。

import cv2
import numpy as np
from PIL import Image
from diffusers.utils import load_image

image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")
image = np.array(image)

low_threshold = 100
high_threshold = 200

image = cv2.Canny(image, low_threshold, high_threshold)
image = Image.fromarray(image)

现在加载一个以 Canny 图像 为条件的 T2I-Adapter,并将其传递给 StableDiffusionAdapterPipeline

import torch
from diffusers import StableDiffusionAdapterPipeline, T2IAdapter

adapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_canny_sd15v2", torch_dtype=torch.float16)
pipeline = StableDiffusionAdapterPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    adapter=adapter,
    torch_dtype=torch.float16,
)
pipeline.to("cuda")

最后,将您的提示和控制图像传递给管道。

generator = torch.Generator("cuda").manual_seed(0)

image = pipeline(
    prompt="cinematic photo of a plush and soft midcentury style rug on a wooden floor, 35mm photograph, film, professional, 4k, highly detailed",
    image=image,
    generator=generator,
).images[0]
image

多适配器

T2I-Adapter 也是可组合的,允许您使用多个适配器对图像施加多个控制条件。例如,您可以使用姿势图提供结构控制,并使用深度图进行深度控制。这由 MultiAdapter 类启用。

让我们用姿势和深度适配器来控制文本到图像模型。创建并放置您的深度和姿势图像,并将其放在列表中。

from diffusers.utils import load_image

pose_image = load_image(
    "https://huggingface.co/datasets/diffusers/docs-images/resolve/main/t2i-adapter/keypose_sample_input.png"
)
depth_image = load_image(
    "https://huggingface.co/datasets/diffusers/docs-images/resolve/main/t2i-adapter/depth_sample_input.png"
)
cond = [pose_image, depth_image]
prompt = ["Santa Claus walking into an office room with a beautiful city view"]
深度图像
姿势图像

MultiAdapter 类中将相应的姿势和深度适配器作为列表加载。

import torch
from diffusers import StableDiffusionAdapterPipeline, MultiAdapter, T2IAdapter

adapters = MultiAdapter(
    [
        T2IAdapter.from_pretrained("TencentARC/t2iadapter_keypose_sd14v1"),
        T2IAdapter.from_pretrained("TencentARC/t2iadapter_depth_sd14v1"),
    ]
)
adapters = adapters.to(torch.float16)

最后,使用适配器加载 StableDiffusionAdapterPipeline,并将您的提示和条件图像传递给它。使用 adapter_conditioning_scale 来调整每个适配器对图像的权重。

pipeline = StableDiffusionAdapterPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4",
    torch_dtype=torch.float16,
    adapter=adapters,
).to("cuda")

image = pipeline(prompt, cond, adapter_conditioning_scale=[0.7, 0.7]).images[0]
image
< > 在 GitHub 上更新