Diffusers 文档
DreamBooth
并获得增强的文档体验
开始使用
DreamBooth
DreamBooth 是一种训练技术,通过仅使用少量图像(可以是特定主题或风格的图像)进行训练来更新整个扩散模型。它通过将提示中的一个特殊词与示例图像相关联来实现这一目标。
如果你的GPU的vRAM有限,你应该尝试在训练命令中启用`gradient_checkpointing`和`mixed_precision`参数。你还可以通过使用xFormers的高效内存注意力来减少内存占用。JAX/Flax训练也支持在TPU和GPU上进行高效训练,但它不支持梯度检查点或xFormers。如果你想用Flax更快地训练,你的GPU应该有>30GB的内存。
本指南将探讨 train_dreambooth.py 脚本,帮助您熟悉它,以及如何根据您自己的用例进行调整。
在运行脚本之前,请确保从源代码安装库
git clone https://github.com/huggingface/diffusers
cd diffusers
pip install .
导航到包含训练脚本的示例文件夹并安装您正在使用的脚本所需的依赖项
cd examples/dreambooth
pip install -r requirements.txt
🤗 Accelerate 是一个帮助您在多个 GPU/TPU 或混合精度下进行训练的库。它会根据您的硬件和环境自动配置您的训练设置。请查看 🤗 Accelerate 快速入门 以了解更多信息。
初始化 🤗 Accelerate 环境
accelerate config
要设置默认的 🤗 Accelerate 环境而不选择任何配置
accelerate config default
或者如果您的环境不支持交互式 shell(例如笔记本),您可以使用
from accelerate.utils import write_basic_config
write_basic_config()
最后,如果您想在自己的数据集上训练模型,请查看 创建训练数据集 指南,了解如何创建与训练脚本兼容的数据集。
以下部分重点介绍了训练脚本中对于理解如何修改它很重要的部分,但它没有详细介绍脚本的每个方面。如果您有兴趣了解更多信息,请随意阅读 脚本,如果您有任何问题或疑虑,请告诉我们。
脚本参数
DreamBooth 对训练超参数非常敏感,很容易过拟合。阅读使用🧨 Diffusers 训练 Stable Diffusion 和 Dreambooth 博客文章,了解不同主题的推荐设置,以帮助您选择合适的超参数。
该训练脚本提供了许多参数来自定义您的训练运行。所有参数及其描述都可以在parse_args()
函数中找到。参数设置了默认值,这些默认值应该开箱即用,但您也可以在训练命令中设置自己的值,如果您愿意的话。
例如,以 bf16 格式训练
accelerate launch train_dreambooth.py \
--mixed_precision="bf16"
一些需要了解和指定的基本且重要的参数是:
--pretrained_model_name_or_path
:Hub 上的模型名称或预训练模型的本地路径--instance_data_dir
:包含训练数据集(示例图像)的文件夹路径--instance_prompt
:包含示例图像特殊词的文本提示--train_text_encoder
:是否也训练文本编码器--output_dir
:训练好的模型的保存位置--push_to_hub
:是否将训练好的模型推送到 Hub--checkpointing_steps
:模型训练过程中保存检查点的频率;如果训练因某种原因中断,这很有用,您可以通过在训练命令中添加--resume_from_checkpoint
从该检查点继续训练
最小信噪比加权
最小信噪比 (Min-SNR) 加权策略通过重新平衡损失以实现更快的收敛来帮助训练。训练脚本支持预测 `epsilon` (噪声) 或 `v_prediction`,但 Min-SNR 与两种预测类型都兼容。此加权策略仅受 PyTorch 支持,在 Flax 训练脚本中不可用。
添加 --snr_gamma
参数并将其设置为推荐值 5.0
accelerate launch train_dreambooth.py \ --snr_gamma=5.0
先验保留损失
先验保留损失是一种利用模型自身生成的样本来帮助它学习如何生成更多样化图像的方法。由于这些生成的样本图像与您提供的图像属于同一类别,它们有助于模型保留其已学到的类别信息,并利用其已知的类别知识来创建新的构图。
--with_prior_preservation
: 是否使用先验保留损失--prior_loss_weight
: 控制先验保留损失对模型的影响--class_data_dir
: 包含生成类样本图像的文件夹路径--class_prompt
: 描述生成样本图像类别的文本提示
accelerate launch train_dreambooth.py \
--with_prior_preservation \
--prior_loss_weight=1.0 \
--class_data_dir="path/to/class/images" \
--class_prompt="text prompt describing class"
训练文本编码器
为了提高生成输出的质量,除了 UNet,您还可以训练文本编码器。这需要额外的内存,并且您需要一个至少具有 24GB vRAM 的 GPU。如果您拥有必要的硬件,那么训练文本编码器会产生更好的结果,尤其是在生成人脸图像时。通过以下方式启用此选项:
accelerate launch train_dreambooth.py \ --train_text_encoder
训练脚本
DreamBooth 带有自己的数据集类:
DreamBoothDataset
:预处理图像和类图像,并对提示进行标记化以进行训练PromptDataset
:生成提示嵌入以生成类图像
如果您启用了先验保留损失,则在此处生成类图像:
sample_dataset = PromptDataset(args.class_prompt, num_new_images)
sample_dataloader = torch.utils.data.DataLoader(sample_dataset, batch_size=args.sample_batch_size)
sample_dataloader = accelerator.prepare(sample_dataloader)
pipeline.to(accelerator.device)
for example in tqdm(
sample_dataloader, desc="Generating class images", disable=not accelerator.is_local_main_process
):
images = pipeline(example["prompt"]).images
接下来是main()
函数,它负责设置训练数据集和训练循环本身。脚本加载分词器、调度器和模型。
# Load the tokenizer
if args.tokenizer_name:
tokenizer = AutoTokenizer.from_pretrained(args.tokenizer_name, revision=args.revision, use_fast=False)
elif args.pretrained_model_name_or_path:
tokenizer = AutoTokenizer.from_pretrained(
args.pretrained_model_name_or_path,
subfolder="tokenizer",
revision=args.revision,
use_fast=False,
)
# Load scheduler and models
noise_scheduler = DDPMScheduler.from_pretrained(args.pretrained_model_name_or_path, subfolder="scheduler")
text_encoder = text_encoder_cls.from_pretrained(
args.pretrained_model_name_or_path, subfolder="text_encoder", revision=args.revision
)
if model_has_vae(args):
vae = AutoencoderKL.from_pretrained(
args.pretrained_model_name_or_path, subfolder="vae", revision=args.revision
)
else:
vae = None
unet = UNet2DConditionModel.from_pretrained(
args.pretrained_model_name_or_path, subfolder="unet", revision=args.revision
)
然后,是时候从 DreamBoothDataset
创建训练数据集和 DataLoader 了。
train_dataset = DreamBoothDataset(
instance_data_root=args.instance_data_dir,
instance_prompt=args.instance_prompt,
class_data_root=args.class_data_dir if args.with_prior_preservation else None,
class_prompt=args.class_prompt,
class_num=args.num_class_images,
tokenizer=tokenizer,
size=args.resolution,
center_crop=args.center_crop,
encoder_hidden_states=pre_computed_encoder_hidden_states,
class_prompt_encoder_hidden_states=pre_computed_class_prompt_encoder_hidden_states,
tokenizer_max_length=args.tokenizer_max_length,
)
train_dataloader = torch.utils.data.DataLoader(
train_dataset,
batch_size=args.train_batch_size,
shuffle=True,
collate_fn=lambda examples: collate_fn(examples, args.with_prior_preservation),
num_workers=args.dataloader_num_workers,
)
最后,训练循环负责剩余的步骤,例如将图像转换为潜在空间,向输入添加噪声,预测噪声残差,以及计算损失。
如果您想了解更多关于训练循环如何工作的信息,请查看 理解管道、模型和调度器 教程,它分解了去噪过程的基本模式。
启动脚本
您现在可以启动训练脚本了!🚀
对于本指南,您将下载一些狗的图像并将其存储在一个目录中。但请记住,如果您愿意,可以创建并使用自己的数据集(请参阅创建训练数据集指南)。
from huggingface_hub import snapshot_download
local_dir = "./dog"
snapshot_download(
"diffusers/dog-example",
local_dir=local_dir,
repo_type="dataset",
ignore_patterns=".gitattributes",
)
将环境变量 `MODEL_NAME` 设置为 Hub 上的模型 ID 或本地模型的路径,`INSTANCE_DIR` 设置为您刚下载狗图像的路径,`OUTPUT_DIR` 设置为您希望保存模型的路径。您将使用 `sks` 作为特殊词来关联训练。
如果您有兴趣跟踪训练过程,可以定期保存生成的图像,随着训练的进行。将以下参数添加到训练命令中:
--validation_prompt="a photo of a sks dog"
--num_validation_images=4
--validation_steps=100
在启动脚本之前还有一件事!根据您拥有的 GPU,您可能需要启用某些优化才能训练 DreamBooth。
在 16GB GPU 上,您可以使用 bitsandbytes 8 位优化器和梯度检查点来帮助您训练 DreamBooth 模型。安装 bitsandbytes
pip install bitsandbytes
然后,将以下参数添加到您的训练命令中:
accelerate launch train_dreambooth.py \ --gradient_checkpointing \ --use_8bit_adam \
export MODEL_NAME="stable-diffusion-v1-5/stable-diffusion-v1-5"
export INSTANCE_DIR="./dog"
export OUTPUT_DIR="path_to_saved_model"
accelerate launch train_dreambooth.py \
--pretrained_model_name_or_path=$MODEL_NAME \
--instance_data_dir=$INSTANCE_DIR \
--output_dir=$OUTPUT_DIR \
--instance_prompt="a photo of sks dog" \
--resolution=512 \
--train_batch_size=1 \
--gradient_accumulation_steps=1 \
--learning_rate=5e-6 \
--lr_scheduler="constant" \
--lr_warmup_steps=0 \
--max_train_steps=400 \
--push_to_hub
训练完成后,您可以使用新训练的模型进行推理!
等不及在训练完成前尝试您的模型进行推理?🤭 确保您已安装最新版本的 🤗 Accelerate。
from diffusers import DiffusionPipeline, UNet2DConditionModel
from transformers import CLIPTextModel
import torch
unet = UNet2DConditionModel.from_pretrained("path/to/model/checkpoint-100/unet")
# if you have trained with `--args.train_text_encoder` make sure to also load the text encoder
text_encoder = CLIPTextModel.from_pretrained("path/to/model/checkpoint-100/checkpoint-100/text_encoder")
pipeline = DiffusionPipeline.from_pretrained(
"stable-diffusion-v1-5/stable-diffusion-v1-5", unet=unet, text_encoder=text_encoder, dtype=torch.float16,
).to("cuda")
image = pipeline("A photo of sks dog in a bucket", num_inference_steps=50, guidance_scale=7.5).images[0]
image.save("dog-bucket.png")
from diffusers import DiffusionPipeline
import torch
pipeline = DiffusionPipeline.from_pretrained("path_to_saved_model", torch_dtype=torch.float16, use_safetensors=True).to("cuda")
image = pipeline("A photo of sks dog in a bucket", num_inference_steps=50, guidance_scale=7.5).images[0]
image.save("dog-bucket.png")
LoRA
LoRA 是一种训练技术,可显著减少可训练参数的数量。因此,训练速度更快,并且更容易存储生成的权重,因为它们要小得多(约 100MB)。使用 train_dreambooth_lora.py 脚本使用 LoRA 进行训练。
LoRA 训练脚本在LoRA 训练指南中进行了更详细的讨论。
Stable Diffusion XL
Stable Diffusion XL (SDXL) 是一个功能强大的文本到图像模型,可生成高分辨率图像,并在其架构中添加了第二个文本编码器。使用 train_dreambooth_lora_sdxl.py 脚本使用 LoRA 训练 SDXL 模型。
SDXL 训练脚本在 SDXL 训练指南中有更详细的讨论。
DeepFloyd IF
DeepFloyd IF 是一个三阶段级联像素扩散模型。第一阶段生成一个基础图像,第二和第三阶段逐步将基础图像上采样为 1024x1024 的高分辨率图像。使用 train_dreambooth_lora.py 或 train_dreambooth.py 脚本来训练带 LoRA 的 DeepFloyd IF 模型或完整模型。
DeepFloyd IF 使用预测方差,但 Diffusers 训练脚本使用预测误差,因此训练后的 DeepFloyd IF 模型会切换到固定方差调度。训练脚本将为您更新完全训练模型的调度器配置。但是,当您加载保存的 LoRA 权重时,您还必须更新管道的调度器配置。
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained("DeepFloyd/IF-I-XL-v1.0", use_safetensors=True)
pipe.load_lora_weights("<lora weights path>")
# Update scheduler config to fixed variance schedule
pipe.scheduler = pipe.scheduler.__class__.from_config(pipe.scheduler.config, variance_type="fixed_small")
第二阶段模型需要额外的验证图像进行放大。您可以下载并使用训练图像的缩小版本。
from huggingface_hub import snapshot_download
local_dir = "./dog_downsized"
snapshot_download(
"diffusers/dog-example-downsized",
local_dir=local_dir,
repo_type="dataset",
ignore_patterns=".gitattributes",
)
以下代码示例简要概述了如何结合 DreamBooth 和 LoRA 训练 DeepFloyd IF 模型。需要注意的一些重要参数是:
--resolution=64
,需要更小的分辨率,因为 DeepFloyd IF 是像素扩散模型,为了处理未压缩像素,输入图像必须更小--pre_compute_text_embeddings
,提前计算文本嵌入以节省内存,因为 T5Model 会占用大量内存--tokenizer_max_length=77
,您可以将 T5 作为文本编码器使用更长的默认文本长度,但默认模型编码过程使用较短的文本长度--text_encoder_use_attention_mask
,将注意力掩码传递给文本编码器
使用 LoRA 和 DreamBooth 训练 DeepFloyd IF 的第一阶段需要大约 28GB 的内存。
export MODEL_NAME="DeepFloyd/IF-I-XL-v1.0"
export INSTANCE_DIR="dog"
export OUTPUT_DIR="dreambooth_dog_lora"
accelerate launch train_dreambooth_lora.py \
--report_to wandb \
--pretrained_model_name_or_path=$MODEL_NAME \
--instance_data_dir=$INSTANCE_DIR \
--output_dir=$OUTPUT_DIR \
--instance_prompt="a sks dog" \
--resolution=64 \
--train_batch_size=4 \
--gradient_accumulation_steps=1 \
--learning_rate=5e-6 \
--scale_lr \
--max_train_steps=1200 \
--validation_prompt="a sks dog" \
--validation_epochs=25 \
--checkpointing_steps=100 \
--pre_compute_text_embeddings \
--tokenizer_max_length=77 \
--text_encoder_use_attention_mask
训练技巧
训练 DeepFloyd IF 模型可能具有挑战性,但以下是一些我们发现有用的技巧:
- LoRA 足以训练第一阶段模型,因为模型的低分辨率使得细节表示无论如何都很困难。
- 对于常见或简单的对象,您不一定需要微调升采样器。请确保传递给升采样器的提示已调整,以从实例提示中删除新的标记。例如,如果您的第一阶段提示是“a sks dog”,那么您的第二阶段提示应该是“a dog”。
- 对于面部等更精细的细节,完全训练第二阶段升采样器比使用 LoRA 训练第二阶段模型更好。使用较低的学习率和较大的批次大小也有帮助。
- 应使用较低的学习率来训练第二阶段模型。
- DDPMScheduler 比训练脚本中使用的 DPMSolver 效果更好。
后续步骤
恭喜您训练好您的 DreamBooth 模型!要了解如何使用您的新模型,以下指南可能会有所帮助:
- 如果您使用 LoRA 训练了您的模型,请了解如何加载 DreamBooth 模型进行推理。