Diffusers 文档

Kolors：用于逼真文本到图像合成的扩散模型有效训练

Diffusers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

Kolors：用于逼真文本到图像合成的扩散模型有效训练

Kolors 是一个基于潜在扩散的大规模文本到图像生成模型，由快手 Kolors 团队开发。 Kolors 在数十亿的文本-图像对上进行训练，在视觉质量、复杂语义准确性和中英文文本渲染方面，相较于开源和闭源模型都展现出显著优势。此外，Kolors 支持中文和英文输入，在理解和生成中文特定内容方面表现出强大的性能。更多详情，请参考此技术报告。

以下是技术报告的摘要

我们提出了 Kolors，一种用于文本到图像合成的潜在扩散模型，其特点是对英语和汉语的深刻理解以及令人印象深刻的逼真度。Kolors 的开发有三个关键的见解。首先，与 Imagen 和 Stable Diffusion 3 中使用的大型语言模型 T5 不同，Kolors 构建于通用语言模型 (GLM) 之上，这增强了其对英语和汉语的理解能力。此外，我们采用多模态大型语言模型来重新标注广泛的训练数据集，以实现细粒度的文本理解。这些策略显著提高了 Kolors 理解复杂语义的能力，特别是那些涉及多个实体的语义，并使其具有先进的文本渲染能力。其次，我们将 Kolors 的训练分为两个阶段：具有广泛知识的概念学习阶段和具有专门策划的高审美数据质量提升阶段。此外，我们研究了噪声调度的关键作用，并引入了一种新颖的调度来优化高分辨率图像生成。这些策略共同增强了生成的高分辨率图像的视觉吸引力。最后，我们提出了类别平衡基准 KolorsPrompts，作为 Kolors 训练和评估的指南。因此，即使在使用常用的 U-Net 主干网络时，Kolors 在人工评估中也表现出了卓越的性能，超越了现有的开源模型，并达到了 Midjourney-v6 级别的性能，尤其是在视觉吸引力方面。我们将在 https://github.com/Kwai-Kolors/Kolors 发布 Kolors 的代码和权重，并希望它将有益于视觉生成社区未来的研究和应用。

使用示例

import torch

from diffusers import DPMSolverMultistepScheduler, KolorsPipeline

pipe = KolorsPipeline.from_pretrained("Kwai-Kolors/Kolors-diffusers", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config, use_karras_sigmas=True)

image = pipe(
    prompt='一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着"可图"',
    negative_prompt="",
    guidance_scale=6.5,
    num_inference_steps=25,
).images[0]

image.save("kolors_sample.png")

IP 适配器

Kolors 需要不同的 IP 适配器才能工作，它使用 Openai-CLIP-336 作为图像编码器。

将 IP 适配器与 Kolors 一起使用需要超过 24GB 的 VRAM。为了使用它，我们建议在消费级 GPU 上使用 enable_model_cpu_offload()。

虽然 Kolors 已集成到 Diffusers 中，但您需要从修订版本加载图像编码器才能使用 safetensor 文件。如果您可以接受加载 pickle 检查点，仍然可以使用原始仓库的主分支。

import torch
from transformers import CLIPVisionModelWithProjection

from diffusers import DPMSolverMultistepScheduler, KolorsPipeline
from diffusers.utils import load_image

image_encoder = CLIPVisionModelWithProjection.from_pretrained(
    "Kwai-Kolors/Kolors-IP-Adapter-Plus",
    subfolder="image_encoder",
    low_cpu_mem_usage=True,
    torch_dtype=torch.float16,
    revision="refs/pr/4",
)

pipe = KolorsPipeline.from_pretrained(
    "Kwai-Kolors/Kolors-diffusers", image_encoder=image_encoder, torch_dtype=torch.float16, variant="fp16"
)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config, use_karras_sigmas=True)

pipe.load_ip_adapter(
    "Kwai-Kolors/Kolors-IP-Adapter-Plus",
    subfolder="",
    weight_name="ip_adapter_plus_general.safetensors",
    revision="refs/pr/4",
    image_encoder_folder=None,
)
pipe.enable_model_cpu_offload()

ipa_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/kolors/cat_square.png")

image = pipe(
    prompt="best quality, high quality",
    negative_prompt="",
    guidance_scale=6.5,
    num_inference_steps=25,
    ip_adapter_image=ipa_image,
).images[0]

image.save("kolors_ipa_sample.png")

KolorsPipeline

class diffusers.KolorsPipeline

< source >

( vae: AutoencoderKL text_encoder: ChatGLMModel tokenizer: ChatGLMTokenizer unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers image_encoder: CLIPVisionModelWithProjection = None feature_extractor: CLIPImageProcessor = None force_zeros_for_empty_prompt: bool = False )

参数

vae (AutoencoderKL) — 变分自编码器 (VAE) 模型，用于将图像编码和解码为潜在表示形式，以及从潜在表示形式解码为图像。
text_encoder (ChatGLMModel) — 冻结的文本编码器。Kolors 使用 ChatGLM3-6B。
tokenizer (ChatGLMTokenizer) — ChatGLMTokenizer 类的分词器。
unet (UNet2DConditionModel) — 条件 U-Net 架构，用于对编码后的图像潜在空间进行去噪。
scheduler (SchedulerMixin) — 调度器，与 unet 结合使用，以对编码后的图像潜在空间进行去噪。可以是 DDIMScheduler、LMSDiscreteScheduler 或 PNDMScheduler 之一。
force_zeros_for_empty_prompt (bool, 可选，默认为 "False") — 负面提示嵌入是否应强制始终设置为 0。另请参阅 Kwai-Kolors/Kolors-diffusers 的配置。

使用 Kolors 进行文本到图像生成的 Pipeline。

此模型继承自 DiffusionPipeline。查看超类文档以了解库为所有 pipelines 实现的通用方法（例如下载或保存、在特定设备上运行等）。

该 pipeline 还继承了以下加载方法

load_lora_weights() 用于加载 LoRA 权重
save_lora_weights() 用于保存 LoRA 权重
load_ip_adapter() 用于加载 IP 适配器

encode_prompt

< source >

( prompt device: typing.Optional[torch.device] = None num_images_per_prompt: int = 1 do_classifier_free_guidance: bool = True negative_prompt = None prompt_embeds: typing.Optional[torch.FloatTensor] = None pooled_prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.FloatTensor] = None negative_pooled_prompt_embeds: typing.Optional[torch.Tensor] = None max_sequence_length: int = 256 )

参数

prompt (str 或 List[str], 可选) — 要编码的提示
device — (torch.device): torch 设备
num_images_per_prompt (int) — 每个提示应生成的图像数量
do_classifier_free_guidance (bool) — 是否使用无分类器引导
negative_prompt (str 或 List[str], 可选) — 不用于引导图像生成的提示。如果未定义，则必须传递 negative_prompt_embeds。当不使用引导时忽略（即，如果 guidance_scale 小于 1 则忽略）。
prompt_embeds (torch.FloatTensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入，例如提示权重。如果未提供，则将从 prompt 输入参数生成文本嵌入。
pooled_prompt_embeds (torch.Tensor, 可选) — 预生成的池化文本嵌入。可用于轻松调整文本输入，例如提示权重。如果未提供，则将从 prompt 输入参数生成池化文本嵌入。
negative_prompt_embeds (torch.FloatTensor, 可选) — 预生成的负面文本嵌入。可用于轻松调整文本输入，例如提示权重。如果未提供，则将从 negative_prompt 输入参数生成 negative_prompt_embeds。
negative_pooled_prompt_embeds (torch.Tensor, 可选) — 预生成的负面池化文本嵌入。可用于轻松调整文本输入，例如提示权重。如果未提供，则将从 negative_prompt 输入参数生成池化的 negative_prompt_embeds。
max_sequence_length (int 默认为 256) — 与 prompt 一起使用的最大序列长度。

将提示编码为文本编码器隐藏状态。

get_guidance_scale_embedding

< source >

( w: Tensor embedding_dim: int = 512 dtype: dtype = torch.float32 ) → torch.Tensor

参数

w (torch.Tensor) — 生成具有指定引导比例的嵌入向量，以随后丰富时间步嵌入。
embedding_dim (int, 可选，默认为 512) — 要生成的嵌入的维度。
dtype (torch.dtype, 可选，默认为 torch.float32) — 生成的嵌入的数据类型。

torch.Tensor

形状为 (len(w), embedding_dim) 的嵌入向量。

参见 https://github.com/google-research/vdm/blob/dc27b98a554f65cdc654b800da5aa1846545d41b/model_vdm.py#L298

all
call

KolorsImg2ImgPipeline

class diffusers.KolorsImg2ImgPipeline

< 源码 >

参数

vae (AutoencoderKL) — 变分自编码器 (VAE) 模型，用于将图像编码和解码为潜在表示。
text_encoder (ChatGLMModel) — 冻结的文本编码器。Kolors 使用 ChatGLM3-6B。
tokenizer (ChatGLMTokenizer) — ChatGLMTokenizer 类的分词器。
unet (UNet2DConditionModel) — 条件 U-Net 架构，用于对编码后的图像潜在空间进行去噪。
scheduler (SchedulerMixin) — 调度器，与 unet 结合使用，以对编码后的图像潜在空间进行去噪。可以是 DDIMScheduler、LMSDiscreteScheduler 或 PNDMScheduler 之一。
force_zeros_for_empty_prompt (bool, optional, defaults to "False") — 负面提示词嵌入是否应始终强制设置为 0。另请参阅 Kwai-Kolors/Kolors-diffusers 的配置。

使用 Kolors 进行文本到图像生成的 Pipeline。

此模型继承自 DiffusionPipeline。查看超类文档以了解库为所有 pipelines 实现的通用方法（例如下载或保存、在特定设备上运行等）。

该 pipeline 还继承了以下加载方法

load_lora_weights() 用于加载 LoRA 权重
save_lora_weights() 用于保存 LoRA 权重
load_ip_adapter() 用于加载 IP 适配器

encode_prompt

< 源码 >

参数

prompt (str 或 List[str], optional) — 要编码的提示词
device — (torch.device): torch 设备
num_images_per_prompt (int) — 每个提示词应生成的图像数量
do_classifier_free_guidance (bool) — 是否使用无分类器引导
negative_prompt (str 或 List[str], optional) — 不用于引导图像生成的提示词。如果未定义，则必须传递 negative_prompt_embeds 代替。当不使用引导时忽略（即，如果 guidance_scale 小于 1，则忽略）。
prompt_embeds (torch.FloatTensor, optional) — 预生成的文本嵌入。可用于轻松调整文本输入，例如提示词权重。如果未提供，则将从 prompt 输入参数生成文本嵌入。
pooled_prompt_embeds (torch.Tensor, optional) — 预生成的池化文本嵌入。可用于轻松调整文本输入，例如提示词权重。如果未提供，则将从 prompt 输入参数生成池化文本嵌入。
negative_prompt_embeds (torch.FloatTensor, optional) — 预生成的负面文本嵌入。可用于轻松调整文本输入，例如提示词权重。如果未提供，则将从 negative_prompt 输入参数生成 negative_prompt_embeds。
negative_pooled_prompt_embeds (torch.Tensor, optional) — 预生成的负面池化文本嵌入。可用于轻松调整文本输入，例如提示词权重。如果未提供，则将从 negative_prompt 输入参数生成 pooled negative_prompt_embeds。
max_sequence_length (int defaults to 256) — 与 prompt 一起使用的最大序列长度。

将提示编码为文本编码器隐藏状态。

get_guidance_scale_embedding

< 源码 >

( w: Tensor embedding_dim: int = 512 dtype: dtype = torch.float32 ) → torch.Tensor

参数

w (torch.Tensor) — 生成具有指定引导尺度的嵌入向量，以随后丰富时间步嵌入。
embedding_dim (int, optional, defaults to 512) — 要生成的嵌入的维度。
dtype (torch.dtype, optional, defaults to torch.float32) — 生成的嵌入的数据类型。

torch.Tensor

形状为 (len(w), embedding_dim) 的嵌入向量。

参见 https://github.com/google-research/vdm/blob/dc27b98a554f65cdc654b800da5aa1846545d41b/model_vdm.py#L298

all
call

< > 在 GitHub 上更新

←Kandinsky 3 潜在一致性模型→