Diffusers 文档

文本反转

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

文本反演

StableDiffusionPipeline 支持文本反演,这是一种使 Stable Diffusion 等模型能够仅从少量示例图像中学习新概念的技术。这使您可以更好地控制生成的图像,并允许您根据特定概念调整模型。您可以在 Stable Diffusion 概念化器 中快速开始使用社区创建的概念集合。

本指南将向您展示如何使用来自 Stable Diffusion 概念化器的预学习概念运行文本反演推理。如果您有兴趣使用文本反演教授模型新概念,请查看 文本反演 训练指南。

导入必要的库

import torch
from diffusers import StableDiffusionPipeline
from diffusers.utils import make_image_grid

Stable Diffusion 1 和 2

选择一个 Stable Diffusion 检查点和来自 Stable Diffusion 概念化器 的预学习概念

pretrained_model_name_or_path = "runwayml/stable-diffusion-v1-5"
repo_id_embeds = "sd-concepts-library/cat-toy"

现在您可以加载管道,并将预学习的概念传递给它

pipeline = StableDiffusionPipeline.from_pretrained(
    pretrained_model_name_or_path, torch_dtype=torch.float16, use_safetensors=True
).to("cuda")

pipeline.load_textual_inversion(repo_id_embeds)

使用特殊占位符标记 <cat-toy> 创建包含预学习概念的提示,并选择要生成的图像样本数量和行数

prompt = "a grafitti in a favela wall with a <cat-toy> on it"

num_samples_per_row = 2
num_rows = 2

然后运行管道(随意调整参数,例如 num_inference_stepsguidance_scale,以查看它们如何影响图像质量),保存生成的图像,并使用您在开头创建的辅助函数可视化它们

all_images = []
for _ in range(num_rows):
    images = pipeline(prompt, num_images_per_prompt=num_samples_per_row, num_inference_steps=50, guidance_scale=7.5).images
    all_images.extend(images)

grid = make_image_grid(all_images, num_rows, num_samples_per_row)
grid

Stable Diffusion XL

Stable Diffusion XL (SDXL) 也可以使用文本反演向量进行推理。与 Stable Diffusion 1 和 2 相比,SDXL 具有两个文本编码器,因此您将需要两个文本反演嵌入 - 每个文本编码器模型一个。

让我们下载 SDXL 文本反演嵌入,并仔细查看其结构

from huggingface_hub import hf_hub_download
from safetensors.torch import load_file

file = hf_hub_download("dn118/unaestheticXL", filename="unaestheticXLv31.safetensors")
state_dict = load_file(file)
state_dict
{'clip_g': tensor([[ 0.0077, -0.0112,  0.0065,  ...,  0.0195,  0.0159,  0.0275],
         ...,
         [-0.0170,  0.0213,  0.0143,  ..., -0.0302, -0.0240, -0.0362]],
 'clip_l': tensor([[ 0.0023,  0.0192,  0.0213,  ..., -0.0385,  0.0048, -0.0011],
         ...,
         [ 0.0475, -0.0508, -0.0145,  ...,  0.0070, -0.0089, -0.0163]],

有两个张量,"clip_g""clip_l""clip_g" 对应于 SDXL 中较大的文本编码器,并指代 pipe.text_encoder_2,而 "clip_l" 指代 pipe.text_encoder

现在,您可以通过将它们与正确的文本编码器和标记器一起传递给 load_textual_inversion() 来分别加载每个张量

from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", variant="fp16", torch_dtype=torch.float16)
pipe.to("cuda")

pipe.load_textual_inversion(state_dict["clip_g"], token="unaestheticXLv31", text_encoder=pipe.text_encoder_2, tokenizer=pipe.tokenizer_2)
pipe.load_textual_inversion(state_dict["clip_l"], token="unaestheticXLv31", text_encoder=pipe.text_encoder, tokenizer=pipe.tokenizer)

# the embedding should be used as a negative embedding, so we pass it as a negative prompt
generator = torch.Generator().manual_seed(33)
image = pipe("a woman standing in front of a mountain", negative_prompt="unaestheticXLv31", generator=generator).images[0]
image
< > 在 GitHub 上更新