Diffusers 文档

Kandinsky 3

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

Kandinsky 3

Kandinsky 3 由 Vladimir ArkhipkinAnastasia MaltsevaIgor PavlovAndrei FilatovArseniy ShakhmatovAndrey KuznetsovDenis DimitrovZein Shaheen 创建

GitHub 页面上的描述

Kandinsky 3.0 是一个基于 Kandinsky2-x 模型家族的开源文生图扩散模型。与之前的版本相比,通过分别增加文本编码器和扩散 U-Net 模型的大小,对模型的文本理解和视觉质量进行了改进。

其架构包括 3 个主要组件

  1. FLAN-UL2,这是一个基于 T5 架构的编码解码器模型。
  2. 新的 U-Net 架构采用 BigGAN 深层块,在保持相同参数数量的情况下将深度加倍。
  3. Sber-MoVQGAN 是一个解码器,已被证明在图像修复方面具有优越的性能。

原始代码库可以在 ai-forever/Kandinsky-3 中找到。

在 Hub 上查看 Kandinsky 社区 组织,了解用于文生图、图生图和修复等任务的官方模型检查点。

请务必查看调度器 指南,了解如何在调度器速度和质量之间进行权衡,并查看 跨管道重用组件 部分,了解如何有效地将相同组件加载到多个管道中。

Kandinsky3Pipeline

class diffusers.Kandinsky3Pipeline

< >

( tokenizer: T5Tokenizer text_encoder: T5EncoderModel unet: Kandinsky3UNet scheduler: DDPMScheduler movq: VQModel )

__call__

< >

( prompt: Union = None num_inference_steps: int = 25 guidance_scale: float = 3.0 negative_prompt: Union = None num_images_per_prompt: Optional = 1 height: Optional = 1024 width: Optional = 1024 generator: Union = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None attention_mask: Optional = None negative_attention_mask: Optional = None output_type: Optional = 'pil' return_dict: bool = True latents = None callback_on_step_end: Optional = None callback_on_step_end_tensor_inputs: List = ['latents'] **kwargs ) ImagePipelineOutput or tuple

参数

  • prompt (strList[str], 可选) — 指导图像生成的提示或提示。如果没有定义,则必须传递 prompt_embeds。代替。
  • num_inference_steps (int, 可选,默认为 25) — 降噪步骤的数量。更多降噪步骤通常会导致更高质量的图像,但推理速度会变慢。
  • timesteps (List[int], 可选) — 用于降噪过程的自定义时间步长。如果没有定义,则使用等间距的 num_inference_steps 时间步长。必须按降序排列。
  • guidance_scale (float, 可选, 默认值为 3.0) — 如Classifier-Free Diffusion Guidance中所定义的引导尺度。guidance_scale 被定义为Imagen 论文中公式 2 的 w。通过将 guidance_scale > 1 来启用引导尺度。较高的引导尺度鼓励生成与文本 prompt 密切相关的图像,通常以降低图像质量为代价。
  • negative_prompt (strList[str], 可选) — 不引导图像生成的提示或提示列表。如果未定义,则必须传递 negative_prompt_embeds。当不使用引导时被忽略(即,如果 guidance_scale 小于 1,则被忽略)。
  • num_images_per_prompt (int, 可选, 默认值为 1) — 每个提示要生成的图像数量。
  • height (int, 可选, 默认值为 self.unet.config.sample_size) — 生成的图像的高度(以像素为单位)。
  • width (int, 可选, 默认值为 self.unet.config.sample_size) — 生成的图像的宽度(以像素为单位)。
  • eta (float, 可选, 默认值为 0.0) — 对应于 DDIM 论文中的参数 eta(η):https://arxiv.org/abs/2010.02502。仅适用于schedulers.DDIMScheduler,其他情况将被忽略。
  • generator (torch.GeneratorList[torch.Generator], 可选) — 一个或多个 torch 生成器,用于使生成确定性。
  • prompt_embeds (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如提示加权。如果未提供,则将从 prompt 输入参数生成文本嵌入。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预生成的负文本嵌入。可用于轻松调整文本输入,例如提示加权。如果未提供,则将从 negative_prompt 输入参数生成 negative_prompt_embeds
  • attention_mask (torch.Tensor, 可选) — 预生成的注意力掩码。如果直接传递 prompt_embeds,则必须提供。
  • output_type (str, optional, defaults to "pil") — 生成的图像的输出格式。在 PIL: PIL.Image.Imagenp.array 之间选择。
  • return_dict (bool, optional, defaults to True) — 是否返回 ~pipelines.stable_diffusion.IFPipelineOutput 而不是普通元组。
  • callback (Callable, optional) — 推理过程中每 callback_steps 步将调用的函数。该函数将使用以下参数调用: callback(step: int, timestep: int, latents: torch.Tensor)
  • callback_steps (int, optional, defaults to 1) — callback 函数将被调用的频率。如果未指定,则回调将在每一步调用。
  • clean_caption (bool, optional, defaults to True) — 是否在创建嵌入之前清理标题。需要安装 beautifulsoup4ftfy。如果未安装依赖项,则将从原始提示创建嵌入。
  • cross_attention_kwargs (dict, optional) — 如果指定,则传递给 AttentionProcessor 的 kwargs 字典,如 diffusers.models.attention_processor 中的 self.processor 中定义的那样。

返回值

ImagePipelineOutputtuple

调用管道进行生成时调用的函数。

示例

>>> from diffusers import AutoPipelineForText2Image
>>> import torch

>>> pipe = AutoPipelineForText2Image.from_pretrained(
...     "kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16
... )
>>> pipe.enable_model_cpu_offload()

>>> prompt = "A photograph of the inside of a subway train. There are raccoons sitting on the seats. One of them is reading a newspaper. The window shows the city in the background."

>>> generator = torch.Generator(device="cpu").manual_seed(0)
>>> image = pipe(prompt, num_inference_steps=25, generator=generator).images[0]

encode_prompt

< >

( prompt do_classifier_free_guidance = True num_images_per_prompt = 1 device = None negative_prompt = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None _cut_context = False attention_mask: Optional = None negative_attention_mask: Optional = None )

参数

  • prompt (strList[str], optional) — 要编码的提示 device — (torch.device, optional): 将生成的嵌入放置到的 torch 设备
  • num_images_per_prompt (int, optional, defaults to 1) — 每个提示应生成的图像数量
  • do_classifier_free_guidance (bool, 可选, 默认值为 True) — 是否使用无分类器引导
  • negative_prompt (strList[str], 可选) — 用于不引导图像生成的提示或提示。如果未定义,则需要传递 negative_prompt_embeds。 如果未定义,则需要传递 negative_prompt_embeds。 在不使用引导的情况下忽略(即,如果 guidance_scale 小于 1,则忽略)。
  • prompt_embeds (torch.Tensor, 可选) — 预先生成的文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,文本嵌入将从 prompt 输入参数生成。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预先生成的负文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,negative_prompt_embeds 将从 negative_prompt 输入参数生成。
  • attention_mask (torch.Tensor, 可选) — 预先生成的注意力掩码。如果直接传递 prompt_embeds,则必须提供。
  • negative_attention_mask (torch.Tensor, 可选) — 预先生成的负注意力掩码。如果直接传递 negative_prompt_embeds,则必须提供。

将提示编码为文本编码器隐藏状态。

Kandinsky3Img2ImgPipeline

diffusers.Kandinsky3Img2ImgPipeline

< >

( tokenizer: T5Tokenizer text_encoder: T5EncoderModel unet: Kandinsky3UNet scheduler: DDPMScheduler movq: VQModel )

__call__

< >

( prompt: Union = None image: Union = None strength: float = 0.3 num_inference_steps: int = 25 guidance_scale: float = 3.0 negative_prompt: Union = None num_images_per_prompt: Optional = 1 generator: Union = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None attention_mask: Optional = None negative_attention_mask: Optional = None output_type: Optional = 'pil' return_dict: bool = True callback_on_step_end: Optional = None callback_on_step_end_tensor_inputs: List = ['latents'] **kwargs

参数

  • 提示 (strList[str], 可选) — 指导图像生成的提示或提示列表。如果未定义,则必须传递 prompt_embeds。 代替。
  • 图像 (torch.Tensor, PIL.Image.Image, np.ndarray, List[torch.Tensor], List[PIL.Image.Image], 或 List[np.ndarray]) — 图像,或表示图像批次的张量,将用作过程的起点。
  • 强度 (float, 可选, 默认值为 0.8) — 指示转换参考 图像 的程度。必须介于 0 和 1 之间。图像 用作起点,并且添加的噪声越多,强度 越高。去噪步骤的数量取决于最初添加的噪声量。当 强度 为 1 时,添加的噪声最大,去噪过程将在 num_inference_steps 中指定的完整迭代次数内运行。值 1 本质上会忽略 图像
  • 推理步骤数 (int, 可选, 默认值为 50) — 去噪步骤的数量。更多去噪步骤通常会导致更高质量的图像,但推理速度会降低。
  • 引导比例 (float, 可选, 默认值为 3.0) — 无分类器扩散引导 中定义的引导比例。引导比例 定义为 Imagen 论文 的等式 2. 的 w。通过将 引导比例 设置为 > 1 来启用引导比例。更高的引导比例鼓励生成与文本 提示 密切相关的图像,通常以较低的图像质量为代价。
  • 负面提示 (strList[str], 可选) — 不引导图像生成的提示或提示列表。如果未定义,则必须传递 negative_prompt_embeds 代替。在不使用引导时忽略(即,如果 引导比例 小于 1,则忽略)。
  • 每个提示的图像数 (int, 可选, 默认值为 1) — 每个提示要生成的图像数量。
  • 生成器 (torch.GeneratorList[torch.Generator], 可选) — 一个或多个 torch 生成器,以使生成确定性。
  • 提示嵌入 (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,则将从 提示 输入参数生成文本嵌入。
  • 负面提示嵌入 (torch.Tensor, 可选) — 预生成的负面文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,则将从 negative_prompt 输入参数生成 negative_prompt_embeds
  • negative_attention_mask (torch.Tensor, 可选) — 预生成的负注意力掩码。如果直接传入 negative_prompt_embeds,则必须提供。
  • output_type (str, 可选, 默认为 "pil") — 生成的图像的输出格式。选择 PIL: PIL.Image.Imagenp.array
  • return_dict (bool, 可选, 默认为 True) — 是否返回 ~pipelines.stable_diffusion.IFPipelineOutput 而不是普通元组。
  • callback_on_step_end (Callable, 可选) — 在推理过程中每次去噪步骤结束时调用的函数。该函数使用以下参数调用:callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)callback_kwargs 将包含所有张量列表,如 callback_on_step_end_tensor_inputs 所指定。
  • callback_on_step_end_tensor_inputs (List, 可选) — callback_on_step_end 函数的张量输入列表。列表中指定的张量将作为 callback_kwargs 参数传递。您只能包含在管道类 ._callback_tensor_inputs 属性中列出的变量。

返回值

ImagePipelineOutputtuple

调用管道进行生成时调用的函数。

示例

>>> from diffusers import AutoPipelineForImage2Image
>>> from diffusers.utils import load_image
>>> import torch

>>> pipe = AutoPipelineForImage2Image.from_pretrained(
...     "kandinsky-community/kandinsky-3", variant="fp16", torch_dtype=torch.float16
... )
>>> pipe.enable_model_cpu_offload()

>>> prompt = "A painting of the inside of a subway train with tiny raccoons."
>>> image = load_image(
...     "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/kandinsky3/t2i.png"
... )

>>> generator = torch.Generator(device="cpu").manual_seed(0)
>>> image = pipe(prompt, image=image, strength=0.75, num_inference_steps=25, generator=generator).images[0]

encode_prompt

< >

( 提示 do_classifier_free_guidance = True num_images_per_prompt = 1 设备 = None 负面提示 = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None _cut_context = False attention_mask: Optional = None negative_attention_mask: Optional = None )

参数

  • 提示 (strList[str], 可选) — 要编码的提示

将提示编码为文本编码器隐藏状态。

设备: (torch.device, 可选): 将生成的嵌入放置的 torch 设备 num_images_per_prompt (int, 可选, 默认为 1): 每个提示应生成的图像数量 do_classifier_free_guidance (bool, 可选, 默认为 True): 是否使用分类器免费引导 负面提示 (strList[str], 可选): 不引导图像生成的提示或提示。如果未定义,则必须传入 negative_prompt_embeds。 如果未定义,则必须传入 negative_prompt_embeds。 如果不使用引导(即,如果 guidance_scale 小于 1),则忽略。 prompt_embeds (torch.Tensor, 可选): 预生成的文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果没有提供,文本嵌入将从 prompt 输入参数生成。 negative_prompt_embeds (torch.Tensor, 可选): 预生成的负文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果没有提供,negative_prompt_embeds 将从 negative_prompt 输入参数生成。 attention_mask (torch.Tensor, 可选): 预生成的注意力掩码。如果直接传入 prompt_embeds,则必须提供。 negative_attention_mask (torch.Tensor, 可选): 预生成的负注意力掩码。如果直接传入 negative_prompt_embeds,则必须提供。

< > 在 GitHub 上更新