T2I-Adapter
T2I-Adapter 是一种轻量级适配器,用于控制并为文本到图像模型提供更准确的结构引导。它的工作原理是学习文本到图像模型的内部知识与外部控制信号(例如边缘检测或深度估计)之间的对齐。
T2I-Adapter 的设计很简单,条件被传递到四个特征提取块和三个降采样块。这使得它能够快速轻松地为不同的条件训练不同的适配器,这些适配器可以插入文本到图像模型中。T2I-Adapter 类似于 ControlNet,但它更小(约 7700 万个参数)且速度更快,因为它在扩散过程中只运行一次。缺点是性能可能略低于 ControlNet。
本指南将向您展示如何将 T2I-Adapter 与不同的 Stable Diffusion 模型一起使用,以及如何组合多个 T2I-Adapter 以施加多个条件。
有几种 T2I-Adapter 可用于不同的条件,例如调色板、深度、草图、姿势和分割。查看 TencentARC 存储库以试用它们!
在开始之前,请确保已安装以下库。
# uncomment to install the necessary libraries in Colab
#!pip install -q diffusers accelerate controlnet-aux==0.0.7
文本到图像
文本到图像模型依靠提示来生成图像,但有时,仅靠文本可能不足以提供更准确的结构引导。T2I-Adapter 允许您提供额外的控制图像来指导生成过程。例如,您可以提供 Canny 图像(黑色背景上图像的白色轮廓)来引导模型生成具有类似结构的图像。
使用 opencv 库 创建 Canny 图像。
import cv2
import numpy as np
from PIL import Image
from diffusers.utils import load_image
image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")
image = np.array(image)
low_threshold = 100
high_threshold = 200
image = cv2.Canny(image, low_threshold, high_threshold)
image = Image.fromarray(image)
现在加载一个以 Canny 图像 为条件的 T2I-Adapter,并将其传递给 StableDiffusionAdapterPipeline。
import torch
from diffusers import StableDiffusionAdapterPipeline, T2IAdapter
adapter = T2IAdapter.from_pretrained("TencentARC/t2iadapter_canny_sd15v2", torch_dtype=torch.float16)
pipeline = StableDiffusionAdapterPipeline.from_pretrained(
"runwayml/stable-diffusion-v1-5",
adapter=adapter,
torch_dtype=torch.float16,
)
pipeline.to("cuda")
最后,将您的提示和控制图像传递给管道。
generator = torch.Generator("cuda").manual_seed(0)
image = pipeline(
prompt="cinematic photo of a plush and soft midcentury style rug on a wooden floor, 35mm photograph, film, professional, 4k, highly detailed",
image=image,
generator=generator,
).images[0]
image
多适配器
T2I-Adapter 也是可组合的,允许您使用多个适配器对图像施加多个控制条件。例如,您可以使用姿势图提供结构控制,并使用深度图进行深度控制。这由 MultiAdapter
类启用。
让我们用姿势和深度适配器来控制文本到图像模型。创建并放置您的深度和姿势图像,并将其放在列表中。
from diffusers.utils import load_image
pose_image = load_image(
"https://huggingface.co/datasets/diffusers/docs-images/resolve/main/t2i-adapter/keypose_sample_input.png"
)
depth_image = load_image(
"https://huggingface.co/datasets/diffusers/docs-images/resolve/main/t2i-adapter/depth_sample_input.png"
)
cond = [pose_image, depth_image]
prompt = ["Santa Claus walking into an office room with a beautiful city view"]
在 MultiAdapter
类中将相应的姿势和深度适配器作为列表加载。
import torch
from diffusers import StableDiffusionAdapterPipeline, MultiAdapter, T2IAdapter
adapters = MultiAdapter(
[
T2IAdapter.from_pretrained("TencentARC/t2iadapter_keypose_sd14v1"),
T2IAdapter.from_pretrained("TencentARC/t2iadapter_depth_sd14v1"),
]
)
adapters = adapters.to(torch.float16)
最后,使用适配器加载 StableDiffusionAdapterPipeline,并将您的提示和条件图像传递给它。使用 adapter_conditioning_scale
来调整每个适配器对图像的权重。
pipeline = StableDiffusionAdapterPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4",
torch_dtype=torch.float16,
adapter=adapters,
).to("cuda")
image = pipeline(prompt, cond, adapter_conditioning_scale=[0.7, 0.7]).images[0]
image