Diffusers 文档

文本反转

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

文本反转

文本反转是一种训练方法,用于通过从少量示例图像中学习新的文本嵌入来个性化模型。训练产生的文件非常小(几 KB),并且新的嵌入可以加载到文本编码器中。

TextualInversionLoaderMixin 提供了一个函数,用于将 Diffusers 和 Automatic1111 中的文本反转嵌入加载到文本编码器中,并加载一个特殊的标记来激活嵌入。

要详细了解如何加载文本反转嵌入,请参阅文本反转 加载指南。

TextualInversionLoaderMixin

class diffusers.loaders.TextualInversionLoaderMixin

< >

( )

将文本反转标记和嵌入加载到分词器和文本编码器中。

load_textual_inversion

< >

( pretrained_model_name_or_path: Union token: Union = None tokenizer: Optional = None text_encoder: Optional = None **kwargs )

参数

  • pretrained_model_name_or_path (stros.PathLikeList[str 或 os.PathLike]DictList[Dict]) — 可以是以下之一或它们的列表:

    • 一个字符串,预训练模型在 Hub 上托管的模型 ID(例如 sd-concepts-library/low-poly-hd-logos-icons)。
    • 包含文本反转权重的目录的路径(例如 ./my_text_inversion_directory/)。
    • 包含文本反转权重的文件的路径(例如 ./my_text_inversions.pt)。
    • 一个torch 状态字典
  • token (strList[str], 可选) — 覆盖要用于文本反转权重的标记。如果 pretrained_model_name_or_path 是一个列表,则 token 也必须是长度相同的列表。
  • text_encoder (CLIPTextModel, 可选) — 冻结的文本编码器 (clip-vit-large-patch14)。如果未指定,则函数将使用 self.tokenizer。
  • tokenizer (CLIPTokenizer可选) — 用于分词文本的 CLIPTokenizer。如果未指定,则函数将使用 self.tokenizer。
  • weight_name (str可选) — 自定义权重文件的名称。这应该在以下情况下使用:

    • 保存的文本反转文件为 🤗 Diffusers 格式,但以特定权重名称(例如 text_inv.bin)保存。
    • 保存的文本反转文件为 Automatic1111 格式。
  • cache_dir (Union[str, os.PathLike]可选) — 如果不使用标准缓存,则缓存下载的预训练模型配置的目录路径。
  • force_download (bool可选,默认为 False) — 是否强制(重新)下载模型权重和配置文件,覆盖现有的缓存版本。
  • proxies (Dict[str, str]可选) — 按协议或端点使用的代理服务器字典,例如 {'http': 'foo.bar:3128', 'http://hostname': 'foo.bar:4012'}。这些代理在每个请求中使用。
  • local_files_only (bool可选,默认为 False) — 是否仅加载本地模型权重和配置文件。如果设置为 True,则不会从 Hub 下载模型。
  • token (strbool可选) — 用作远程文件 HTTP 授权令牌的令牌。如果为 True,则使用 diffusers-cli login 生成的令牌(存储在 ~/.huggingface 中)。
  • revision (str可选,默认为 "main") — 要使用的特定模型版本。它可以是分支名称、标签名称、提交 ID 或 Git 允许的任何标识符。
  • subfolder (str可选,默认为 "") — Hub 或本地更大模型存储库中模型文件的子文件夹位置。
  • mirror (str可选) — 如果您在中国下载模型,则镜像源可解决可访问性问题。我们不保证源的及时性或安全性,您应该参考镜像站点以获取更多信息。

将文本反转嵌入加载到 StableDiffusionPipeline 的文本编码器中(支持 🤗 Diffusers 和 Automatic1111 格式)。

示例

要加载 🤗 Diffusers 格式的文本反转嵌入向量

from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")

pipe.load_textual_inversion("sd-concepts-library/cat-toy")

prompt = "A <cat-toy> backpack"

image = pipe(prompt, num_inference_steps=50).images[0]
image.save("cat-backpack.png")

要加载 Automatic1111 格式的文本反转嵌入向量,请确保首先下载向量(例如,从 civitAI),然后加载向量

本地

from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")

pipe.load_textual_inversion("./charturnerv2.pt", token="charturnerv2")

prompt = "charturnerv2, multiple views of the same character in the same outfit, a character turnaround of a woman wearing a black jacket and red shirt, best quality, intricate details."

image = pipe(prompt, num_inference_steps=50).images[0]
image.save("character.png")

maybe_convert_prompt

< >

( prompt: Union tokenizer: PreTrainedTokenizer ) strstr 列表

参数

  • prompt (strstr 列表) — 指导图像生成的提示或提示。
  • tokenizer (PreTrainedTokenizer) — 负责将提示编码为输入标记的标记器。

返回值

strstr 列表

转换后的提示

处理包含对应于多向量文本反转嵌入的特殊标记的提示,该嵌入将替换为多个特殊标记,每个标记对应于一个向量。如果提示没有文本反转标记,或者文本反转标记是单个向量,则返回输入提示。

unload_textual_inversion

< >

( tokens: Union = None tokenizer: Optional = None text_encoder: Optional = None )

StableDiffusionPipeline 的文本编码器中卸载文本反转嵌入。

示例

from diffusers import AutoPipelineForText2Image
import torch

pipeline = AutoPipelineForText2Image.from_pretrained("runwayml/stable-diffusion-v1-5")

# Example 1
pipeline.load_textual_inversion("sd-concepts-library/gta5-artwork")
pipeline.load_textual_inversion("sd-concepts-library/moeb-style")

# Remove all token embeddings
pipeline.unload_textual_inversion()

# Example 2
pipeline.load_textual_inversion("sd-concepts-library/moeb-style")
pipeline.load_textual_inversion("sd-concepts-library/gta5-artwork")

# Remove just one token
pipeline.unload_textual_inversion("<moe-bius>")

# Example 3: unload from SDXL
pipeline = AutoPipelineForText2Image.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0")
embedding_path = hf_hub_download(
    repo_id="linoyts/web_y2k", filename="web_y2k_emb.safetensors", repo_type="model"
)

# load embeddings to the text encoders
state_dict = load_file(embedding_path)

# load embeddings of text_encoder 1 (CLIP ViT-L/14)
pipeline.load_textual_inversion(
    state_dict["clip_l"],
    token=["<s0>", "<s1>"],
    text_encoder=pipeline.text_encoder,
    tokenizer=pipeline.tokenizer,
)
# load embeddings of text_encoder 2 (CLIP ViT-G/14)
pipeline.load_textual_inversion(
    state_dict["clip_g"],
    token=["<s0>", "<s1>"],
    text_encoder=pipeline.text_encoder_2,
    tokenizer=pipeline.tokenizer_2,
)

# Unload explicitly from both text encoders abd tokenizers
pipeline.unload_textual_inversion(
    tokens=["<s0>", "<s1>"], text_encoder=pipeline.text_encoder, tokenizer=pipeline.tokenizer
)
pipeline.unload_textual_inversion(
    tokens=["<s0>", "<s1>"], text_encoder=pipeline.text_encoder_2, tokenizer=pipeline.tokenizer_2
)
< > 在 GitHub 上更新