文本反转
文本反转是一种训练方法,用于通过从少量示例图像中学习新的文本嵌入来个性化模型。训练产生的文件非常小(几 KB),并且新的嵌入可以加载到文本编码器中。
TextualInversionLoaderMixin
提供了一个函数,用于将 Diffusers 和 Automatic1111 中的文本反转嵌入加载到文本编码器中,并加载一个特殊的标记来激活嵌入。
要详细了解如何加载文本反转嵌入,请参阅文本反转 加载指南。
TextualInversionLoaderMixin
将文本反转标记和嵌入加载到分词器和文本编码器中。
load_textual_inversion
< 源代码 >( pretrained_model_name_or_path: Union token: Union = None tokenizer: Optional = None text_encoder: Optional = None **kwargs )
参数
- pretrained_model_name_or_path (
str
或os.PathLike
或List[str 或 os.PathLike]
或Dict
或List[Dict]
) — 可以是以下之一或它们的列表:- 一个字符串,预训练模型在 Hub 上托管的模型 ID(例如
sd-concepts-library/low-poly-hd-logos-icons
)。 - 包含文本反转权重的目录的路径(例如
./my_text_inversion_directory/
)。 - 包含文本反转权重的文件的路径(例如
./my_text_inversions.pt
)。 - 一个torch 状态字典。
- 一个字符串,预训练模型在 Hub 上托管的模型 ID(例如
- token (
str
或List[str]
, 可选) — 覆盖要用于文本反转权重的标记。如果pretrained_model_name_or_path
是一个列表,则token
也必须是长度相同的列表。 - text_encoder (CLIPTextModel, 可选) — 冻结的文本编码器 (clip-vit-large-patch14)。如果未指定,则函数将使用 self.tokenizer。
- tokenizer (CLIPTokenizer,可选) — 用于分词文本的
CLIPTokenizer
。如果未指定,则函数将使用 self.tokenizer。 - weight_name (
str
,可选) — 自定义权重文件的名称。这应该在以下情况下使用:- 保存的文本反转文件为 🤗 Diffusers 格式,但以特定权重名称(例如
text_inv.bin
)保存。 - 保存的文本反转文件为 Automatic1111 格式。
- 保存的文本反转文件为 🤗 Diffusers 格式,但以特定权重名称(例如
- cache_dir (
Union[str, os.PathLike]
,可选) — 如果不使用标准缓存,则缓存下载的预训练模型配置的目录路径。 - force_download (
bool
,可选,默认为False
) — 是否强制(重新)下载模型权重和配置文件,覆盖现有的缓存版本。 - proxies (
Dict[str, str]
,可选) — 按协议或端点使用的代理服务器字典,例如{'http': 'foo.bar:3128', 'http://hostname': 'foo.bar:4012'}
。这些代理在每个请求中使用。 - local_files_only (
bool
,可选,默认为False
) — 是否仅加载本地模型权重和配置文件。如果设置为True
,则不会从 Hub 下载模型。 - token (
str
或 bool,可选) — 用作远程文件 HTTP 授权令牌的令牌。如果为True
,则使用diffusers-cli login
生成的令牌(存储在~/.huggingface
中)。 - revision (
str
,可选,默认为"main"
) — 要使用的特定模型版本。它可以是分支名称、标签名称、提交 ID 或 Git 允许的任何标识符。 - subfolder (
str
,可选,默认为""
) — Hub 或本地更大模型存储库中模型文件的子文件夹位置。 - mirror (
str
,可选) — 如果您在中国下载模型,则镜像源可解决可访问性问题。我们不保证源的及时性或安全性,您应该参考镜像站点以获取更多信息。
将文本反转嵌入加载到 StableDiffusionPipeline 的文本编码器中(支持 🤗 Diffusers 和 Automatic1111 格式)。
示例
要加载 🤗 Diffusers 格式的文本反转嵌入向量
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")
pipe.load_textual_inversion("sd-concepts-library/cat-toy")
prompt = "A <cat-toy> backpack"
image = pipe(prompt, num_inference_steps=50).images[0]
image.save("cat-backpack.png")
要加载 Automatic1111 格式的文本反转嵌入向量,请确保首先下载向量(例如,从 civitAI),然后加载向量
本地
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16).to("cuda")
pipe.load_textual_inversion("./charturnerv2.pt", token="charturnerv2")
prompt = "charturnerv2, multiple views of the same character in the same outfit, a character turnaround of a woman wearing a black jacket and red shirt, best quality, intricate details."
image = pipe(prompt, num_inference_steps=50).images[0]
image.save("character.png")
maybe_convert_prompt
< 源代码 >( prompt: Union tokenizer: PreTrainedTokenizer ) → str
或 str
列表
处理包含对应于多向量文本反转嵌入的特殊标记的提示,该嵌入将替换为多个特殊标记,每个标记对应于一个向量。如果提示没有文本反转标记,或者文本反转标记是单个向量,则返回输入提示。
unload_textual_inversion
< 源代码 >( tokens: Union = None tokenizer: Optional = None text_encoder: Optional = None )
从 StableDiffusionPipeline 的文本编码器中卸载文本反转嵌入。
示例
from diffusers import AutoPipelineForText2Image
import torch
pipeline = AutoPipelineForText2Image.from_pretrained("runwayml/stable-diffusion-v1-5")
# Example 1
pipeline.load_textual_inversion("sd-concepts-library/gta5-artwork")
pipeline.load_textual_inversion("sd-concepts-library/moeb-style")
# Remove all token embeddings
pipeline.unload_textual_inversion()
# Example 2
pipeline.load_textual_inversion("sd-concepts-library/moeb-style")
pipeline.load_textual_inversion("sd-concepts-library/gta5-artwork")
# Remove just one token
pipeline.unload_textual_inversion("<moe-bius>")
# Example 3: unload from SDXL
pipeline = AutoPipelineForText2Image.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0")
embedding_path = hf_hub_download(
repo_id="linoyts/web_y2k", filename="web_y2k_emb.safetensors", repo_type="model"
)
# load embeddings to the text encoders
state_dict = load_file(embedding_path)
# load embeddings of text_encoder 1 (CLIP ViT-L/14)
pipeline.load_textual_inversion(
state_dict["clip_l"],
token=["<s0>", "<s1>"],
text_encoder=pipeline.text_encoder,
tokenizer=pipeline.tokenizer,
)
# load embeddings of text_encoder 2 (CLIP ViT-G/14)
pipeline.load_textual_inversion(
state_dict["clip_g"],
token=["<s0>", "<s1>"],
text_encoder=pipeline.text_encoder_2,
tokenizer=pipeline.tokenizer_2,
)
# Unload explicitly from both text encoders abd tokenizers
pipeline.unload_textual_inversion(
tokens=["<s0>", "<s1>"], text_encoder=pipeline.text_encoder, tokenizer=pipeline.tokenizer
)
pipeline.unload_textual_inversion(
tokens=["<s0>", "<s1>"], text_encoder=pipeline.text_encoder_2, tokenizer=pipeline.tokenizer_2
)