Diffusers 文档
T2I-Adapter
并获取增强的文档体验
开始使用
T2I-Adapter
T2I-Adapter 是一种轻量级适配器,用于控制文本到图像模型并为其提供更精确的结构指导。它的工作原理是学习文本到图像模型的内部知识与外部控制信号(例如边缘检测或深度估计)之间的对齐。
T2I-Adapter 设计简单,条件被传递到四个特征提取块和三个下采样块。这使得训练用于不同条件的不同适配器变得快速且容易,这些适配器可以插入到文本到图像模型中。T2I-Adapter 类似于 ControlNet,但它更小(约 77M 参数)且更快,因为它在扩散过程中仅运行一次。缺点是性能可能略逊于 ControlNet。
本指南将向您展示如何将 T2I-Adapter 与不同的 Stable Diffusion 模型一起使用,以及如何组合多个 T2I-Adapter 以施加多个条件。
有几种 T2I-Adapter 可用于不同的条件,例如调色板、深度、草图、姿势和分割。查看 TencentARC 仓库来尝试它们!
在开始之前,请确保您已安装以下库。
# uncomment to install the necessary libraries in Colab
#!pip install -q diffusers accelerate controlnet-aux==0.0.7
文本到图像
文本到图像模型依赖于提示词来生成图像,但有时,仅文本可能不足以提供更精确的结构指导。T2I-Adapter 允许您提供额外的控制图像来指导生成过程。例如,您可以提供 canny 图像(黑色背景上图像的白色轮廓)来指导模型生成具有相似结构的图像。
使用 opencv-library 创建 canny 图像。
import cv2
import numpy as np
from PIL import Image
from diffusers.utils import load_image
image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")
image = np.array(image)
low_threshold = 100
high_threshold = 200
image = cv2.Canny(image, low_threshold, high_threshold)
image = Image.fromarray(image)
现在加载以 canny 图像为条件的 T2I-Adapter,并将其传递给 StableDiffusionAdapterPipeline。
import torch
from diffusers import StableDiffusionAdapterPipeline, T2IAdapter
adapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_canny_sd15v2", torch_dtype=torch.float16)
pipeline = StableDiffusionAdapterPipeline.from_pretrained(
"stable-diffusion-v1-5/stable-diffusion-v1-5",
adapter=adapter,
torch_dtype=torch.float16,
)
pipeline.to("cuda")
最后,将您的提示词和控制图像传递给 pipeline。
generator = torch.Generator("cuda").manual_seed(0)
image = pipeline(
prompt="cinematic photo of a plush and soft midcentury style rug on a wooden floor, 35mm photograph, film, professional, 4k, highly detailed",
image=image,
generator=generator,
).images[0]
image

MultiAdapter
T2I-Adapter 也是可组合的,允许您使用多个适配器对图像施加多个控制条件。例如,您可以使用姿势图来提供结构控制,并使用深度图进行深度控制。这通过 MultiAdapter
类实现。
让我们使用姿势和深度适配器来调节文本到图像模型。创建深度和姿势图像,并将它们放在列表中。
from diffusers.utils import load_image
pose_image = load_image(
"https://huggingface.co/datasets/diffusers/docs-images/resolve/main/t2i-adapter/keypose_sample_input.png"
)
depth_image = load_image(
"https://huggingface.co/datasets/diffusers/docs-images/resolve/main/t2i-adapter/depth_sample_input.png"
)
cond = [pose_image, depth_image]
prompt = ["Santa Claus walking into an office room with a beautiful city view"]


在 MultiAdapter
类中将相应的姿势和深度适配器作为列表加载。
import torch
from diffusers import StableDiffusionAdapterPipeline, MultiAdapter, T2IAdapter
adapters = MultiAdapter(
[
T2IAdapter.from_pretrained("TencentARC/t2iadapter_keypose_sd14v1"),
T2IAdapter.from_pretrained("TencentARC/t2iadapter_depth_sd14v1"),
]
)
adapters = adapters.to(torch.float16)
最后,加载带有适配器的 StableDiffusionAdapterPipeline,并将您的提示词和条件图像传递给它。使用 adapter_conditioning_scale
来调整每个适配器对图像的权重。
pipeline = StableDiffusionAdapterPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4",
torch_dtype=torch.float16,
adapter=adapters,
).to("cuda")
image = pipeline(prompt, cond, adapter_conditioning_scale=[0.7, 0.7]).images[0]
image
