Diffusers 文档
K-Diffusion
并获得增强的文档体验
开始使用
K-Diffusion
k-diffusion 是由 Katherine Crowson 创建的流行库。我们提供了 StableDiffusionKDiffusionPipeline
和 StableDiffusionXLKDiffusionPipeline
,让您可以使用 k-diffusion 中的采样器运行 Stable Diffusion。
请注意,k-diffusion 中的大多数采样器都已在 Diffusers 中实现,我们建议使用现有的调度器。您可以在此处找到 k-diffusion 采样器与 Diffusers 中调度器之间的映射关系。
StableDiffusionKDiffusionPipeline
class diffusers.StableDiffusionKDiffusionPipeline
< 来源 >( vae: AutoencoderKL text_encoder: CLIPTextModel tokenizer: typing.Union[transformers.models.clip.tokenization_clip.CLIPTokenizer, transformers.models.clip.tokenization_clip_fast.CLIPTokenizerFast] unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers safety_checker: StableDiffusionSafetyChecker feature_extractor: CLIPImageProcessor requires_safety_checker: bool = True )
参数
- vae (AutoencoderKL) — 用于将图像编码和解码为潜在表示的变分自编码器(VAE)模型。
- text_encoder (
CLIPTextModel
) — 冻结的文本编码器。Stable Diffusion 使用 CLIP 的文本部分,特别是 clip-vit-large-patch14 变体。 - tokenizer (
CLIPTokenizer
) — CLIPTokenizer 类的分词器。 - unet (UNet2DConditionModel) — 用于对编码图像潜在表示进行去噪的条件 U-Net 架构。
- scheduler (SchedulerMixin) — 用于与
unet
结合去噪编码图像潜在表示的调度器。可以是 DDIMScheduler、LMSDiscreteScheduler 或 PNDMScheduler 之一。 - safety_checker (
StableDiffusionSafetyChecker
) — 分类模块,用于评估生成的图像是否可能具有冒犯性或有害。详情请参阅模型卡。 - feature_extractor (
CLIPImageProcessor
) — 用于从生成的图像中提取特征作为safety_checker
输入的模型。
用于使用 Stable Diffusion 进行文本到图像生成的管道。
此模型继承自 DiffusionPipeline。请查看超类文档,了解该库为所有管道实现的通用方法(例如下载或保存、在特定设备上运行等)
该管道还继承了以下加载方法
- load_textual_inversion() 用于加载文本反演嵌入
- load_lora_weights() 用于加载 LoRA 权重
- save_lora_weights() 用于保存 LoRA 权重
这是一个实验性管道,未来可能会有变化。
encode_prompt
< 来源 >( prompt device num_images_per_prompt do_classifier_free_guidance negative_prompt = None prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.Tensor] = None lora_scale: typing.Optional[float] = None clip_skip: typing.Optional[int] = None )
参数
- prompt (
str
或List[str]
, 可选) — 待编码的提示词 - device — (
torch.device
):torch 设备 - num_images_per_prompt (
int
) — 每个提示词应生成的图像数量 - do_classifier_free_guidance (
bool
) — 是否使用分类器自由引导 - negative_prompt (
str
或List[str]
, 可选) — 不用于引导图像生成的提示词。如果未定义,则必须传入negative_prompt_embeds
。在使用非引导模式(即guidance_scale
小于1
)时,此参数将被忽略。 - prompt_embeds (
torch.Tensor
, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如提示词权重。如果未提供,文本嵌入将从prompt
输入参数生成。 - negative_prompt_embeds (
torch.Tensor
, 可选) — 预生成的负面文本嵌入。可用于轻松调整文本输入,例如提示词权重。如果未提供,negative_prompt_embeds 将从negative_prompt
输入参数生成。 - lora_scale (
float
, 可选) — 将应用于文本编码器所有 LoRA 层的 LoRA 缩放。 - clip_skip (
int
, 可选) — 在计算提示嵌入时从 CLIP 中跳过的层数。值为 1 表示将使用预最终层的输出计算提示嵌入。
将提示编码为文本编码器隐藏状态。
StableDiffusionXLKDiffusionPipeline
class diffusers.StableDiffusionXLKDiffusionPipeline
< 来源 >( vae: AutoencoderKL text_encoder: CLIPTextModel text_encoder_2: CLIPTextModelWithProjection tokenizer: CLIPTokenizer tokenizer_2: CLIPTokenizer unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers force_zeros_for_empty_prompt: bool = True )
encode_prompt
< 源 >( prompt: str prompt_2: typing.Optional[str] = None device: typing.Optional[torch.device] = None num_images_per_prompt: int = 1 do_classifier_free_guidance: bool = True negative_prompt: typing.Optional[str] = None negative_prompt_2: typing.Optional[str] = None prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.Tensor] = None pooled_prompt_embeds: typing.Optional[torch.Tensor] = None negative_pooled_prompt_embeds: typing.Optional[torch.Tensor] = None lora_scale: typing.Optional[float] = None clip_skip: typing.Optional[int] = None )
参数
- prompt (
str
或List[str]
, 可选) — 待编码的提示词 - prompt_2 (
str
或List[str]
, 可选) — 发送到tokenizer_2
和text_encoder_2
的提示词。如果未定义,prompt
将用于两个文本编码器。 - device — (
torch.device
): torch 设备 - num_images_per_prompt (
int
) — 每个提示词应生成的图像数量 - do_classifier_free_guidance (
bool
) — 是否使用分类器自由引导 - negative_prompt (
str
或List[str]
, 可选) — 不用于引导图像生成的提示词。如果未定义,则必须传入negative_prompt_embeds
。当不使用引导时(即,如果guidance_scale
小于1
),此参数将被忽略。 - negative_prompt_2 (
str
或List[str]
, 可选) — 发送到tokenizer_2
和text_encoder_2
的不用于引导图像生成的提示词。如果未定义,negative_prompt
将用于两个文本编码器。 - prompt_embeds (
torch.Tensor
, 可选) — 预先生成的文本嵌入。可用于轻松调整文本输入,例如提示词权重。如果未提供,文本嵌入将从prompt
输入参数生成。 - negative_prompt_embeds (
torch.Tensor
, 可选) — 预先生成的负面文本嵌入。可用于轻松调整文本输入,例如提示词权重。如果未提供,负面提示词嵌入将从negative_prompt
输入参数生成。 - pooled_prompt_embeds (
torch.Tensor
, 可选) — 预先生成的池化文本嵌入。可用于轻松调整文本输入,例如提示词权重。如果未提供,池化文本嵌入将从prompt
输入参数生成。 - negative_pooled_prompt_embeds (
torch.Tensor
, 可选) — 预先生成的负面池化文本嵌入。可用于轻松调整文本输入,例如提示词权重。如果未提供,池化负面提示词嵌入将从negative_prompt
输入参数生成。 - lora_scale (
float
, 可选) — 应用于文本编码器所有 LoRA 层的 LoRA 比例(如果 LoRA 层已加载)。 - clip_skip (
int
, 可选) — 在计算提示词嵌入时要跳过 CLIP 的层数。值为 1 表示将使用倒数第二层的输出计算提示词嵌入。
将提示编码为文本编码器隐藏状态。