Diffusers 文档
Kolors:用于逼真文本到图像合成的扩散模型有效训练
并获得增强的文档体验
开始使用
Kolors:用于逼真文本到图像合成的扩散模型有效训练
Kolors 是一个基于潜在扩散的大规模文本到图像生成模型,由快手 Kolors 团队开发。 Kolors 在数十亿的文本-图像对上进行训练,在视觉质量、复杂语义准确性和中英文文本渲染方面,相较于开源和闭源模型都展现出显著优势。此外,Kolors 支持中文和英文输入,在理解和生成中文特定内容方面表现出强大的性能。更多详情,请参考此技术报告。
以下是技术报告的摘要
我们提出了 Kolors,一种用于文本到图像合成的潜在扩散模型,其特点是对英语和汉语的深刻理解以及令人印象深刻的逼真度。Kolors 的开发有三个关键的见解。首先,与 Imagen 和 Stable Diffusion 3 中使用的大型语言模型 T5 不同,Kolors 构建于通用语言模型 (GLM) 之上,这增强了其对英语和汉语的理解能力。此外,我们采用多模态大型语言模型来重新标注广泛的训练数据集,以实现细粒度的文本理解。这些策略显著提高了 Kolors 理解复杂语义的能力,特别是那些涉及多个实体的语义,并使其具有先进的文本渲染能力。其次,我们将 Kolors 的训练分为两个阶段:具有广泛知识的概念学习阶段和具有专门策划的高审美数据质量提升阶段。此外,我们研究了噪声调度的关键作用,并引入了一种新颖的调度来优化高分辨率图像生成。这些策略共同增强了生成的高分辨率图像的视觉吸引力。最后,我们提出了类别平衡基准 KolorsPrompts,作为 Kolors 训练和评估的指南。因此,即使在使用常用的 U-Net 主干网络时,Kolors 在人工评估中也表现出了卓越的性能,超越了现有的开源模型,并达到了 Midjourney-v6 级别的性能,尤其是在视觉吸引力方面。我们将在 https://github.com/Kwai-Kolors/Kolors 发布 Kolors 的代码和权重,并希望它将有益于视觉生成社区未来的研究和应用。
使用示例
import torch
from diffusers import DPMSolverMultistepScheduler, KolorsPipeline
pipe = KolorsPipeline.from_pretrained("Kwai-Kolors/Kolors-diffusers", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config, use_karras_sigmas=True)
image = pipe(
prompt='一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着"可图"',
negative_prompt="",
guidance_scale=6.5,
num_inference_steps=25,
).images[0]
image.save("kolors_sample.png")
IP 适配器
Kolors 需要不同的 IP 适配器才能工作,它使用 Openai-CLIP-336 作为图像编码器。
将 IP 适配器与 Kolors 一起使用需要超过 24GB 的 VRAM。为了使用它,我们建议在消费级 GPU 上使用 enable_model_cpu_offload()。
虽然 Kolors 已集成到 Diffusers 中,但您需要从修订版本加载图像编码器才能使用 safetensor 文件。如果您可以接受加载 pickle 检查点,仍然可以使用原始仓库的主分支。
import torch
from transformers import CLIPVisionModelWithProjection
from diffusers import DPMSolverMultistepScheduler, KolorsPipeline
from diffusers.utils import load_image
image_encoder = CLIPVisionModelWithProjection.from_pretrained(
"Kwai-Kolors/Kolors-IP-Adapter-Plus",
subfolder="image_encoder",
low_cpu_mem_usage=True,
torch_dtype=torch.float16,
revision="refs/pr/4",
)
pipe = KolorsPipeline.from_pretrained(
"Kwai-Kolors/Kolors-diffusers", image_encoder=image_encoder, torch_dtype=torch.float16, variant="fp16"
)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config, use_karras_sigmas=True)
pipe.load_ip_adapter(
"Kwai-Kolors/Kolors-IP-Adapter-Plus",
subfolder="",
weight_name="ip_adapter_plus_general.safetensors",
revision="refs/pr/4",
image_encoder_folder=None,
)
pipe.enable_model_cpu_offload()
ipa_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/kolors/cat_square.png")
image = pipe(
prompt="best quality, high quality",
negative_prompt="",
guidance_scale=6.5,
num_inference_steps=25,
ip_adapter_image=ipa_image,
).images[0]
image.save("kolors_ipa_sample.png")
KolorsPipeline
class diffusers.KolorsPipeline
< source >( vae: AutoencoderKL text_encoder: ChatGLMModel tokenizer: ChatGLMTokenizer unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers image_encoder: CLIPVisionModelWithProjection = None feature_extractor: CLIPImageProcessor = None force_zeros_for_empty_prompt: bool = False )
参数
- vae (AutoencoderKL) — 变分自编码器 (VAE) 模型,用于将图像编码和解码为潜在表示形式,以及从潜在表示形式解码为图像。
- text_encoder (
ChatGLMModel
) — 冻结的文本编码器。Kolors 使用 ChatGLM3-6B。 - tokenizer (
ChatGLMTokenizer
) — ChatGLMTokenizer 类的分词器。 - unet (UNet2DConditionModel) — 条件 U-Net 架构,用于对编码后的图像潜在空间进行去噪。
- scheduler (SchedulerMixin) — 调度器,与
unet
结合使用,以对编码后的图像潜在空间进行去噪。可以是 DDIMScheduler、LMSDiscreteScheduler 或 PNDMScheduler 之一。 - force_zeros_for_empty_prompt (
bool
, 可选,默认为"False"
) — 负面提示嵌入是否应强制始终设置为 0。另请参阅Kwai-Kolors/Kolors-diffusers
的配置。
使用 Kolors 进行文本到图像生成的 Pipeline。
此模型继承自 DiffusionPipeline。查看超类文档以了解库为所有 pipelines 实现的通用方法(例如下载或保存、在特定设备上运行等)。
该 pipeline 还继承了以下加载方法
- load_lora_weights() 用于加载 LoRA 权重
- save_lora_weights() 用于保存 LoRA 权重
- load_ip_adapter() 用于加载 IP 适配器
encode_prompt
< source >( prompt device: typing.Optional[torch.device] = None num_images_per_prompt: int = 1 do_classifier_free_guidance: bool = True negative_prompt = None prompt_embeds: typing.Optional[torch.FloatTensor] = None pooled_prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.FloatTensor] = None negative_pooled_prompt_embeds: typing.Optional[torch.Tensor] = None max_sequence_length: int = 256 )
参数
- prompt (
str
或List[str]
, 可选) — 要编码的提示 - device — (
torch.device
): torch 设备 - num_images_per_prompt (
int
) — 每个提示应生成的图像数量 - do_classifier_free_guidance (
bool
) — 是否使用无分类器引导 - negative_prompt (
str
或List[str]
, 可选) — 不用于引导图像生成的提示。如果未定义,则必须传递negative_prompt_embeds
。当不使用引导时忽略(即,如果guidance_scale
小于1
则忽略)。 - prompt_embeds (
torch.FloatTensor
, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如 提示权重。如果未提供,则将从prompt
输入参数生成文本嵌入。 - pooled_prompt_embeds (
torch.Tensor
, 可选) — 预生成的池化文本嵌入。可用于轻松调整文本输入,例如 提示权重。如果未提供,则将从prompt
输入参数生成池化文本嵌入。 - negative_prompt_embeds (
torch.FloatTensor
, 可选) — 预生成的负面文本嵌入。可用于轻松调整文本输入,例如 提示权重。如果未提供,则将从negative_prompt
输入参数生成 negative_prompt_embeds。 - negative_pooled_prompt_embeds (
torch.Tensor
, 可选) — 预生成的负面池化文本嵌入。可用于轻松调整文本输入,例如 提示权重。如果未提供,则将从negative_prompt
输入参数生成池化的 negative_prompt_embeds。 - max_sequence_length (
int
默认为 256) — 与prompt
一起使用的最大序列长度。
将提示编码为文本编码器隐藏状态。
get_guidance_scale_embedding
< source >( w: Tensor embedding_dim: int = 512 dtype: dtype = torch.float32 ) → torch.Tensor
- all
- call
KolorsImg2ImgPipeline
class diffusers.KolorsImg2ImgPipeline
< 源码 >( vae: AutoencoderKL text_encoder: ChatGLMModel tokenizer: ChatGLMTokenizer unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers image_encoder: CLIPVisionModelWithProjection = None feature_extractor: CLIPImageProcessor = None force_zeros_for_empty_prompt: bool = False )
参数
- vae (AutoencoderKL) — 变分自编码器 (VAE) 模型,用于将图像编码和解码为潜在表示。
- text_encoder (
ChatGLMModel
) — 冻结的文本编码器。Kolors 使用 ChatGLM3-6B。 - tokenizer (
ChatGLMTokenizer
) — ChatGLMTokenizer 类的分词器。 - unet (UNet2DConditionModel) — 条件 U-Net 架构,用于对编码后的图像潜在空间进行去噪。
- scheduler (SchedulerMixin) — 调度器,与
unet
结合使用,以对编码后的图像潜在空间进行去噪。可以是 DDIMScheduler、LMSDiscreteScheduler 或 PNDMScheduler 之一。 - force_zeros_for_empty_prompt (
bool
, optional, defaults to"False"
) — 负面提示词嵌入是否应始终强制设置为 0。另请参阅Kwai-Kolors/Kolors-diffusers
的配置。
使用 Kolors 进行文本到图像生成的 Pipeline。
此模型继承自 DiffusionPipeline。查看超类文档以了解库为所有 pipelines 实现的通用方法(例如下载或保存、在特定设备上运行等)。
该 pipeline 还继承了以下加载方法
- load_lora_weights() 用于加载 LoRA 权重
- save_lora_weights() 用于保存 LoRA 权重
- load_ip_adapter() 用于加载 IP 适配器
encode_prompt
< 源码 >( prompt device: typing.Optional[torch.device] = None num_images_per_prompt: int = 1 do_classifier_free_guidance: bool = True negative_prompt = None prompt_embeds: typing.Optional[torch.FloatTensor] = None pooled_prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.FloatTensor] = None negative_pooled_prompt_embeds: typing.Optional[torch.Tensor] = None max_sequence_length: int = 256 )
参数
- prompt (
str
或List[str]
, optional) — 要编码的提示词 - device — (
torch.device
): torch 设备 - num_images_per_prompt (
int
) — 每个提示词应生成的图像数量 - do_classifier_free_guidance (
bool
) — 是否使用无分类器引导 - negative_prompt (
str
或List[str]
, optional) — 不用于引导图像生成的提示词。如果未定义,则必须传递negative_prompt_embeds
代替。当不使用引导时忽略(即,如果guidance_scale
小于1
,则忽略)。 - prompt_embeds (
torch.FloatTensor
, optional) — 预生成的文本嵌入。可用于轻松调整文本输入,例如 提示词权重。如果未提供,则将从prompt
输入参数生成文本嵌入。 - pooled_prompt_embeds (
torch.Tensor
, optional) — 预生成的池化文本嵌入。可用于轻松调整文本输入,例如 提示词权重。如果未提供,则将从prompt
输入参数生成池化文本嵌入。 - negative_prompt_embeds (
torch.FloatTensor
, optional) — 预生成的负面文本嵌入。可用于轻松调整文本输入,例如 提示词权重。如果未提供,则将从negative_prompt
输入参数生成 negative_prompt_embeds。 - negative_pooled_prompt_embeds (
torch.Tensor
, optional) — 预生成的负面池化文本嵌入。可用于轻松调整文本输入,例如 提示词权重。如果未提供,则将从negative_prompt
输入参数生成 pooled negative_prompt_embeds。 - max_sequence_length (
int
defaults to 256) — 与prompt
一起使用的最大序列长度。
将提示编码为文本编码器隐藏状态。
get_guidance_scale_embedding
< 源码 >( w: Tensor embedding_dim: int = 512 dtype: dtype = torch.float32 ) → torch.Tensor
- all
- call