Diffusers

加入 Hugging Face 社区

并获得增强的文档体验

协作处理模型、数据集和 Spaces

通过加速推理获得更快的示例

切换文档主题

开始使用

T2I-Adapter

T2I-Adapter 是一种轻量级适配器模型，它提供额外的条件输入图像（线条画、Canny 边缘检测、草图、深度、姿势）以更好地控制图像生成。它类似于 ControlNet，但体积更小（约 77M 参数和 300MB 文件大小），因为它仅将权重插入到 UNet 中，而不是复制和训练它。

T2I-Adapter 仅适用于使用 Stable Diffusion XL (SDXL) 模型进行训练。

本指南将探讨 train_t2i_adapter_sdxl.py 训练脚本，以帮助您熟悉它，以及如何针对您自己的用例进行调整。

在运行脚本之前，请确保从源码安装库

git clone https://github.com/huggingface/diffusers
cd diffusers
pip install .

然后导航到包含训练脚本的示例文件夹，并安装您正在使用的脚本所需的依赖项

cd examples/t2i_adapter
pip install -r requirements.txt

🤗 Accelerate 是一个库，旨在帮助您在多个 GPU/TPU 上或使用混合精度进行训练。它会根据您的硬件和环境自动配置您的训练设置。查看 🤗 Accelerate 快速入门以了解更多信息。

初始化 🤗 Accelerate 环境

accelerate config

要设置默认的 🤗 Accelerate 环境而无需选择任何配置

accelerate config default

或者，如果您的环境不支持交互式 shell，例如 notebook，您可以使用

from accelerate.utils import write_basic_config

write_basic_config()

最后，如果您想在您自己的数据集上训练模型，请查看创建用于训练的数据集指南，以了解如何创建适用于训练脚本的数据集。

以下部分重点介绍训练脚本中对于理解如何修改脚本很重要的部分，但它并未详细介绍脚本的每个方面。如果您有兴趣了解更多信息，请随时通读脚本，如果您有任何问题或疑虑，请告知我们。

脚本参数

训练脚本提供了许多参数来帮助您自定义训练运行。所有参数及其描述都可以在 parse_args() 函数中找到。它为每个参数提供了默认值，例如训练批次大小和学习率，但如果您愿意，也可以在训练命令中设置您自己的值。

例如，要激活梯度累积，请将 --gradient_accumulation_steps 参数添加到训练命令中

accelerate launch train_t2i_adapter_sdxl.py \
  ----gradient_accumulation_steps=4

许多基本且重要的参数在 Text-to-image 训练指南中进行了描述，因此本指南仅关注相关的 T2I-Adapter 参数

--pretrained_vae_model_name_or_path：预训练 VAE 的路径；已知 SDXL VAE 存在数值不稳定性问题，因此此参数允许您指定更好的 VAE
--crops_coords_top_left_h 和 --crops_coords_top_left_w：要包含在 SDXL 的裁剪坐标嵌入中的高度和宽度坐标
--conditioning_image_column：数据集中条件图像的列
--proportion_empty_prompts：用空字符串替换图像提示的比例

训练脚本

与脚本参数一样，Text-to-image 训练指南中提供了训练脚本的详细介绍。相反，本指南着重介绍脚本中与 T2I-Adapter 相关的部分。

训练脚本首先准备数据集。这包括分词化 prompt 和应用转换到图像和条件图像。

conditioning_image_transforms = transforms.Compose(
    [
        transforms.Resize(args.resolution, interpolation=transforms.InterpolationMode.BILINEAR),
        transforms.CenterCrop(args.resolution),
        transforms.ToTensor(),
    ]
)

在 main() 函数中，T2I-Adapter 要么从预训练的适配器加载，要么随机初始化

if args.adapter_model_name_or_path:
    logger.info("Loading existing adapter weights.")
    t2iadapter = T2IAdapter.from_pretrained(args.adapter_model_name_or_path)
else:
    logger.info("Initializing t2iadapter weights.")
    t2iadapter = T2IAdapter(
        in_channels=3,
        channels=(320, 640, 1280, 1280),
        num_res_blocks=2,
        downscale_factor=16,
        adapter_type="full_adapter_xl",
    )

为 T2I-Adapter 参数初始化优化器

params_to_optimize = t2iadapter.parameters()
optimizer = optimizer_class(
    params_to_optimize,
    lr=args.learning_rate,
    betas=(args.adam_beta1, args.adam_beta2),
    weight_decay=args.adam_weight_decay,
    eps=args.adam_epsilon,
)

最后，在训练循环中，适配器条件图像和文本嵌入被传递到 UNet 以预测噪声残差

t2iadapter_image = batch["conditioning_pixel_values"].to(dtype=weight_dtype)
down_block_additional_residuals = t2iadapter(t2iadapter_image)
down_block_additional_residuals = [
    sample.to(dtype=weight_dtype) for sample in down_block_additional_residuals
]

model_pred = unet(
    inp_noisy_latents,
    timesteps,
    encoder_hidden_states=batch["prompt_ids"],
    added_cond_kwargs=batch["unet_added_conditions"],
    down_block_additional_residuals=down_block_additional_residuals,
).sample

如果您想了解有关训练循环工作原理的更多信息，请查看理解 pipelines、models 和 schedulers 教程，该教程分解了去噪过程的基本模式。

启动脚本

现在您已准备好启动训练脚本！🚀

对于此示例训练，您将使用 fusing/fill50k 数据集。如果您愿意，您也可以创建和使用自己的数据集（请参阅创建用于训练的数据集指南）。

将环境变量 MODEL_DIR 设置为 Hub 上的模型 ID 或本地模型的路径，并将 OUTPUT_DIR 设置为您想要保存模型的位置。

下载以下图像以调节您的训练

wget https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/controlnet_training/conditioning_image_1.png
wget https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/controlnet_training/conditioning_image_2.png

要使用 Weights & Biases 监控训练进度，请将 --report_to=wandb 参数添加到训练命令中。您还需要将 --validation_image、--validation_prompt 和 --validation_steps 添加到训练命令中，以跟踪结果。这对于调试模型和查看中间结果非常有用。

export MODEL_DIR="stabilityai/stable-diffusion-xl-base-1.0"
export OUTPUT_DIR="path to save model"

accelerate launch train_t2i_adapter_sdxl.py \
 --pretrained_model_name_or_path=$MODEL_DIR \
 --output_dir=$OUTPUT_DIR \
 --dataset_name=fusing/fill50k \
 --mixed_precision="fp16" \
 --resolution=1024 \
 --learning_rate=1e-5 \
 --max_train_steps=15000 \
 --validation_image "./conditioning_image_1.png" "./conditioning_image_2.png" \
 --validation_prompt "red circle with blue background" "cyan circle with brown floral background" \
 --validation_steps=100 \
 --train_batch_size=1 \
 --gradient_accumulation_steps=4 \
 --report_to="wandb" \
 --seed=42 \
 --push_to_hub

训练完成后，您可以使用您的 T2I-Adapter 进行推理

from diffusers import StableDiffusionXLAdapterPipeline, T2IAdapter, EulerAncestralDiscreteSchedulerTest
from diffusers.utils import load_image
import torch

adapter = T2IAdapter.from_pretrained("path/to/adapter", torch_dtype=torch.float16)
pipeline = StableDiffusionXLAdapterPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", adapter=adapter, torch_dtype=torch.float16
)

pipeline.scheduler = EulerAncestralDiscreteSchedulerTest.from_config(pipe.scheduler.config)
pipeline.enable_xformers_memory_efficient_attention()
pipeline.enable_model_cpu_offload()

control_image = load_image("./conditioning_image_1.png")
prompt = "pale golden rod circle with old lace background"

generator = torch.manual_seed(0)
image = pipeline(
    prompt, image=control_image, generator=generator
).images[0]
image.save("./output.png")

后续步骤

恭喜您训练了一个 T2I-Adapter 模型！🎉 想要了解更多

阅读使用 T2I-Adapters 为 SDXL 实现高效可控生成博客文章，以了解有关 T2I-Adapter 团队实验结果的更多详细信息。

< > 在 GitHub 上更新

←ControlNet InstructPix2Pix→