Diffusers 文档

使用 AnimateDiff 进行文本到视频的生成

Hugging Face's logo
加入 Hugging Face 社区

并获得增强版文档体验

开始使用

使用 AnimateDiff 进行文本到视频的生成

概述

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning by Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai.

论文的摘要如下:

随着文本到图像模型(例如,Stable Diffusion)及其个性化技术的进步(例如 DreamBooth 和 LoRA),每个人都可以以负担得起的成本将自己的想象力转化为高质量图像。随后,对图像动画技术的需求激增,以进一步将生成的静态图像与运动动态相结合。在本报告中,我们提出了一种实用的框架,可以一劳永逸地为大多数现有的个性化文本到图像模型添加动画,从而节省模型特定调优的努力。该框架的核心是在冻结的文本到图像模型中插入一个新初始化的运动建模模块,并在视频片段上训练它,以提取合理的运动先验信息。一旦经过训练,只需注入这个运动建模模块,所有从相同基础 T2I 派生的个性化版本都将立即变为文本驱动的模型,可以生成多样化和个性化的动画图像。我们对几个公开的代表性个性化文本到图像模型进行了评估,涵盖了动漫图片和逼真的照片,结果表明我们提出的框架可以帮助这些模型生成时间上平滑的动画片段,同时保留其输出的域和多样性。代码和预训练权重将在 此 https URL 公开提供。

可用管道

管道 任务 演示
AnimateDiffPipeline 使用 AnimateDiff 进行文本到视频的生成
AnimateDiffControlNetPipeline 使用 ControlNet 的 AnimateDiff 控制视频到视频生成
AnimateDiffSparseControlNetPipeline 使用 SparseCtrl 的 AnimateDiff 控制视频到视频生成
AnimateDiffSDXLPipeline 使用 AnimateDiff 进行视频到视频的生成
AnimateDiffVideoToVideoPipeline 使用 AnimateDiff 进行视频到视频的生成

可用检查点

可以在 guoyww 下找到运动适配器检查点。这些检查点旨在与基于 Stable Diffusion 1.4/1.5 的任何模型配合使用。

使用示例

AnimateDiffPipeline

AnimateDiff 使用 MotionAdapter 检查点和 Stable Diffusion 模型检查点。MotionAdapter 是一个 Motion Module 的集合,负责在图像帧之间添加连贯的运动。这些模块应用于 Stable Diffusion UNet 中的 Resnet 和 Attention 块之后。

以下示例演示了如何使用 *MotionAdapter* 检查点与 Diffusers 进行基于 StableDiffusion-1.4/1.5 的推理。

import torch
from diffusers import AnimateDiffPipeline, DDIMScheduler, MotionAdapter
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2", torch_dtype=torch.float16)
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter, torch_dtype=torch.float16)
scheduler = DDIMScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    clip_sample=False,
    timestep_spacing="linspace",
    beta_schedule="linear",
    steps_offset=1,
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")

以下是一些示例输出

杰作,最佳质量,日落。
masterpiece, bestquality, sunset

AnimateDiff 倾向于与微调的 Stable Diffusion 模型配合使用。如果您计划使用可以剪切样本的调度器,请确保通过在调度器中设置 `clip_sample=False` 来禁用它,因为这也会对生成样本产生不利影响。此外,AnimateDiff 检查点可能对调度器的 beta 计划敏感。我们建议将其设置为 `linear`。

AnimateDiffControlNetPipeline

AnimateDiff 也可以与 ControlNets 配合使用。ControlNet 在 为文本到图像扩散模型添加条件控制 中引入,作者为 Lvmin Zhang、Anyi Rao 和 Maneesh Agrawala。使用 ControlNet 模型,您可以提供额外的控制图像来调节和控制 Stable Diffusion 的生成。例如,如果您提供深度图,ControlNet 模型将生成一个保留深度图空间信息的视频。它是一种更灵活、更准确的方式来控制视频生成过程。

import torch
from diffusers import AnimateDiffControlNetPipeline, AutoencoderKL, ControlNetModel, MotionAdapter, LCMScheduler
from diffusers.utils import export_to_gif, load_video

# Additionally, you will need a preprocess videos before they can be used with the ControlNet
# HF maintains just the right package for it: `pip install controlnet_aux`
from controlnet_aux.processor import ZoeDetector

# Download controlnets from https://huggingface.co/lllyasviel/ControlNet-v1-1 to use .from_single_file
# Download Diffusers-format controlnets, such as https://huggingface.co/lllyasviel/sd-controlnet-depth, to use .from_pretrained()
controlnet = ControlNetModel.from_single_file("control_v11f1p_sd15_depth.pth", torch_dtype=torch.float16)

# We use AnimateLCM for this example but one can use the original motion adapters as well (for example, https://huggingface.co/guoyww/animatediff-motion-adapter-v1-5-3)
motion_adapter = MotionAdapter.from_pretrained("wangfuyun/AnimateLCM")

vae = AutoencoderKL.from_pretrained("stabilityai/sd-vae-ft-mse", torch_dtype=torch.float16)
pipe: AnimateDiffControlNetPipeline = AnimateDiffControlNetPipeline.from_pretrained(
    "SG161222/Realistic_Vision_V5.1_noVAE",
    motion_adapter=motion_adapter,
    controlnet=controlnet,
    vae=vae,
).to(device="cuda", dtype=torch.float16)
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config, beta_schedule="linear")
pipe.load_lora_weights("wangfuyun/AnimateLCM", weight_name="AnimateLCM_sd15_t2v_lora.safetensors", adapter_name="lcm-lora")
pipe.set_adapters(["lcm-lora"], [0.8])

depth_detector = ZoeDetector.from_pretrained("lllyasviel/Annotators").to("cuda")
video = load_video("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-vid2vid-input-1.gif")
conditioning_frames = []

with pipe.progress_bar(total=len(video)) as progress_bar:
    for frame in video:
        conditioning_frames.append(depth_detector(frame))
        progress_bar.update()

prompt = "a panda, playing a guitar, sitting in a pink boat, in the ocean, mountains in background, realistic, high quality"
negative_prompt = "bad quality, worst quality"

video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_frames=len(video),
    num_inference_steps=10,
    guidance_scale=2.0,
    conditioning_frames=conditioning_frames,
    generator=torch.Generator().manual_seed(42),
).frames[0]

export_to_gif(video, "animatediff_controlnet.gif", fps=8)

以下是一些示例输出

源视频 输出视频
一只浣熊在弹吉他
racoon playing a guitar
一只熊猫,弹着吉他,坐在粉红色的船上,在海洋里,背景是山脉,逼真,高质量
a panda, playing a guitar, sitting in a pink boat, in the ocean, mountains in background, realistic, high quality

AnimateDiffSparseControlNetPipeline

SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models for achieving controlled generation in text-to-video diffusion models by Yuwei Guo, Ceyuan Yang, Anyi Rao, Maneesh Agrawala, Dahua Lin, and Bo Dai.

论文的摘要如下:

近年来,文本到视频 (T2V) 的发展,即使用给定的文本提示生成视频,取得了显著进展。然而,仅仅依赖文本提示往往会导致由于空间不确定性而导致的帧构成模糊。因此,研究界利用密集结构信号(例如,每帧深度/边缘序列)来增强可控性,而这些信号的收集相应地增加了推理的负担。在这项工作中,我们介绍了 SparseCtrl,以支持使用时间稀疏信号进行灵活的结构控制,只需要一个或几个输入,如图 1 所示。它包含一个额外的条件编码器来处理这些稀疏信号,同时保持预训练的 T2V 模型不变。所提出的方法与各种模态兼容,包括草图、深度图和 RGB 图像,为视频生成提供了更实用的控制,并促进了故事板、深度渲染、关键帧动画和插值等应用。大量实验表明,SparseCtrl 在原始和个性化的 T2V 生成器上都具有通用性。代码和模型将在 此 https URL 公开提供。

SparseCtrl 为受控文本到视频生成引入了以下检查点

使用 SparseCtrl Scribble

import torch

from diffusers import AnimateDiffSparseControlNetPipeline
from diffusers.models import AutoencoderKL, MotionAdapter, SparseControlNetModel
from diffusers.schedulers import DPMSolverMultistepScheduler
from diffusers.utils import export_to_gif, load_image


model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
motion_adapter_id = "guoyww/animatediff-motion-adapter-v1-5-3"
controlnet_id = "guoyww/animatediff-sparsectrl-scribble"
lora_adapter_id = "guoyww/animatediff-motion-lora-v1-5-3"
vae_id = "stabilityai/sd-vae-ft-mse"
device = "cuda"

motion_adapter = MotionAdapter.from_pretrained(motion_adapter_id, torch_dtype=torch.float16).to(device)
controlnet = SparseControlNetModel.from_pretrained(controlnet_id, torch_dtype=torch.float16).to(device)
vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16).to(device)
scheduler = DPMSolverMultistepScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    beta_schedule="linear",
    algorithm_type="dpmsolver++",
    use_karras_sigmas=True,
)
pipe = AnimateDiffSparseControlNetPipeline.from_pretrained(
    model_id,
    motion_adapter=motion_adapter,
    controlnet=controlnet,
    vae=vae,
    scheduler=scheduler,
    torch_dtype=torch.float16,
).to(device)
pipe.load_lora_weights(lora_adapter_id, adapter_name="motion_lora")
pipe.fuse_lora(lora_scale=1.0)

prompt = "an aerial view of a cyberpunk city, night time, neon lights, masterpiece, high quality"
negative_prompt = "low quality, worst quality, letterboxed"

image_files = [
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-scribble-1.png",
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-scribble-2.png",
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-scribble-3.png"
]
condition_frame_indices = [0, 8, 15]
conditioning_frames = [load_image(img_file) for img_file in image_files]

video = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=25,
    conditioning_frames=conditioning_frames,
    controlnet_conditioning_scale=1.0,
    controlnet_frame_indices=condition_frame_indices,
    generator=torch.Generator().manual_seed(1337),
).frames[0]
export_to_gif(video, "output.gif")

以下是一些示例输出

一个赛博朋克城市的航拍视角,夜晚,霓虹灯,杰作,高质量
scribble-1
scribble-2
scribble-3
an aerial view of a cyberpunk city, night time, neon lights, masterpiece, high quality

使用 SparseCtrl RGB

import torch

from diffusers import AnimateDiffSparseControlNetPipeline
from diffusers.models import AutoencoderKL, MotionAdapter, SparseControlNetModel
from diffusers.schedulers import DPMSolverMultistepScheduler
from diffusers.utils import export_to_gif, load_image


model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
motion_adapter_id = "guoyww/animatediff-motion-adapter-v1-5-3"
controlnet_id = "guoyww/animatediff-sparsectrl-rgb"
lora_adapter_id = "guoyww/animatediff-motion-lora-v1-5-3"
vae_id = "stabilityai/sd-vae-ft-mse"
device = "cuda"

motion_adapter = MotionAdapter.from_pretrained(motion_adapter_id, torch_dtype=torch.float16).to(device)
controlnet = SparseControlNetModel.from_pretrained(controlnet_id, torch_dtype=torch.float16).to(device)
vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16).to(device)
scheduler = DPMSolverMultistepScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    beta_schedule="linear",
    algorithm_type="dpmsolver++",
    use_karras_sigmas=True,
)
pipe = AnimateDiffSparseControlNetPipeline.from_pretrained(
    model_id,
    motion_adapter=motion_adapter,
    controlnet=controlnet,
    vae=vae,
    scheduler=scheduler,
    torch_dtype=torch.float16,
).to(device)
pipe.load_lora_weights(lora_adapter_id, adapter_name="motion_lora")

image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-firework.png")

video = pipe(
    prompt="closeup face photo of man in black clothes, night city street, bokeh, fireworks in background",
    negative_prompt="low quality, worst quality",
    num_inference_steps=25,
    conditioning_frames=image,
    controlnet_frame_indices=[0],
    controlnet_conditioning_scale=1.0,
    generator=torch.Generator().manual_seed(42),
).frames[0]
export_to_gif(video, "output.gif")

以下是一些示例输出

穿着黑色衣服的男人特写脸部照片,夜晚城市街道,散景,背景有烟花
closeup face photo of man in black clothes, night city street, bokeh, fireworks in background
closeup face photo of man in black clothes, night city street, bokeh, fireworks in background

AnimateDiffSDXLPipeline

AnimateDiff 也可以与 SDXL 模型一起使用。这目前是一个实验性功能,因为只有动作适配器检查点的测试版本可用。

import torch
from diffusers.models import MotionAdapter
from diffusers import AnimateDiffSDXLPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-sdxl-beta", torch_dtype=torch.float16)

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
scheduler = DDIMScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    clip_sample=False,
    timestep_spacing="linspace",
    beta_schedule="linear",
    steps_offset=1,
)
pipe = AnimateDiffSDXLPipeline.from_pretrained(
    model_id,
    motion_adapter=adapter,
    scheduler=scheduler,
    torch_dtype=torch.float16,
    variant="fp16",
).to("cuda")

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_vae_tiling()

output = pipe(
    prompt="a panda surfing in the ocean, realistic, high quality",
    negative_prompt="low quality, worst quality",
    num_inference_steps=20,
    guidance_scale=8,
    width=1024,
    height=1024,
    num_frames=16,
)

frames = output.frames[0]
export_to_gif(frames, "animation.gif")

AnimateDiffVideoToVideoPipeline

AnimateDiff 也可以用来生成视觉上相似的视频,或从初始视频开始启用样式/角色/背景或其他编辑,让你可以无缝地探索创意可能性。

import imageio
import requests
import torch
from diffusers import AnimateDiffVideoToVideoPipeline, DDIMScheduler, MotionAdapter
from diffusers.utils import export_to_gif
from io import BytesIO
from PIL import Image

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2", torch_dtype=torch.float16)
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffVideoToVideoPipeline.from_pretrained(model_id, motion_adapter=adapter, torch_dtype=torch.float16)
scheduler = DDIMScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    clip_sample=False,
    timestep_spacing="linspace",
    beta_schedule="linear",
    steps_offset=1,
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

# helper function to load videos
def load_video(file_path: str):
    images = []

    if file_path.startswith(('http://', 'https://')):
        # If the file_path is a URL
        response = requests.get(file_path)
        response.raise_for_status()
        content = BytesIO(response.content)
        vid = imageio.get_reader(content)
    else:
        # Assuming it's a local file path
        vid = imageio.get_reader(file_path)

    for frame in vid:
        pil_image = Image.fromarray(frame)
        images.append(pil_image)

    return images

video = load_video("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-vid2vid-input-1.gif")

output = pipe(
    video = video,
    prompt="panda playing a guitar, on a boat, in the ocean, high quality",
    negative_prompt="bad quality, worse quality",
    guidance_scale=7.5,
    num_inference_steps=25,
    strength=0.5,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")

以下是一些示例输出

源视频 输出视频
一只浣熊在弹吉他
racoon playing a guitar
熊猫弹吉他
panda playing a guitar
玛格特·罗比特写,背景有烟花,高质量
closeup of margot robbie, fireworks in the background, high quality
托尼·斯塔克特写,小罗伯特·唐尼,烟花
closeup of tony stark, robert downey jr, fireworks

使用运动 LoRAs

运动 LoRAs 是与 guoyww/animatediff-motion-adapter-v1-5-2 检查点一起使用的 LoRAs 集合。这些 LoRAs 负责为动画添加特定类型的运动。

import torch
from diffusers import AnimateDiffPipeline, DDIMScheduler, MotionAdapter
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2", torch_dtype=torch.float16)
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter, torch_dtype=torch.float16)
pipe.load_lora_weights(
    "guoyww/animatediff-motion-lora-zoom-out", adapter_name="zoom-out"
)

scheduler = DDIMScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    clip_sample=False,
    beta_schedule="linear",
    timestep_spacing="linspace",
    steps_offset=1,
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")
杰作,最佳质量,日落。
masterpiece, bestquality, sunset

使用 PEFT 的运动 LoRAs

你也可以利用 PEFT 后端来组合运动 LoRA 并创建更复杂的动画。

首先使用以下命令安装 PEFT

pip install peft

然后,你可以使用以下代码来组合运动 LoRAs。

import torch
from diffusers import AnimateDiffPipeline, DDIMScheduler, MotionAdapter
from diffusers.utils import export_to_gif

# Load the motion adapter
adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2", torch_dtype=torch.float16)
# load SD 1.5 based finetuned model
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter, torch_dtype=torch.float16)

pipe.load_lora_weights(
    "diffusers/animatediff-motion-lora-zoom-out", adapter_name="zoom-out",
)
pipe.load_lora_weights(
    "diffusers/animatediff-motion-lora-pan-left", adapter_name="pan-left",
)
pipe.set_adapters(["zoom-out", "pan-left"], adapter_weights=[1.0, 1.0])

scheduler = DDIMScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    clip_sample=False,
    timestep_spacing="linspace",
    beta_schedule="linear",
    steps_offset=1,
)
pipe.scheduler = scheduler

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt=(
        "masterpiece, bestquality, highlydetailed, ultradetailed, sunset, "
        "orange sky, warm lighting, fishing boats, ocean waves seagulls, "
        "rippling water, wharf, silhouette, serene atmosphere, dusk, evening glow, "
        "golden hour, coastal landscape, seaside scenery"
    ),
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=25,
    generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
export_to_gif(frames, "animation.gif")
杰作,最佳质量,日落。
masterpiece, bestquality, sunset

使用 FreeInit

FreeInit: Bridging Initialization Gap in Video Diffusion Models by Tianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu.

FreeInit 是一种有效的方法,它在不进行任何额外训练的情况下,提高了使用视频扩散模型生成的视频的时间一致性和整体质量。它可以在推理时无缝地应用于 AnimateDiff、ModelScope、VideoCrafter 和各种其他视频生成模型,通过迭代地细化潜在初始化噪声来工作。更多详细信息可以在论文中找到。

以下示例演示了 FreeInit 的用法。

import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif

adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2")
model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter, torch_dtype=torch.float16).to("cuda")
pipe.scheduler = DDIMScheduler.from_pretrained(
    model_id,
    subfolder="scheduler",
    beta_schedule="linear",
    clip_sample=False,
    timestep_spacing="linspace",
    steps_offset=1
)

# enable memory savings
pipe.enable_vae_slicing()
pipe.enable_vae_tiling()

# enable FreeInit
# Refer to the enable_free_init documentation for a full list of configurable parameters
pipe.enable_free_init(method="butterworth", use_fast_sampling=True)

# run inference
output = pipe(
    prompt="a panda playing a guitar, on a boat, in the ocean, high quality",
    negative_prompt="bad quality, worse quality",
    num_frames=16,
    guidance_scale=7.5,
    num_inference_steps=20,
    generator=torch.Generator("cpu").manual_seed(666),
)

# disable FreeInit
pipe.disable_free_init()

frames = output.frames[0]
export_to_gif(frames, "animation.gif")

FreeInit 并不真正免费——质量提高的代价是额外的计算。它需要根据启用它时设置的 num_iters 参数进行几次额外的采样。将 use_fast_sampling 参数设置为 True 可以提高整体性能(以牺牲与 use_fast_sampling=False 相比的较低质量为代价,但仍然比普通的视频生成模型具有更好的结果)。

请务必查看调度器 指南,了解如何探索调度器速度和质量之间的权衡,并查看 跨管道重用组件 部分,了解如何有效地将相同的组件加载到多个管道中。

没有启用 FreeInit 启用了 FreeInit
熊猫弹吉他
panda playing a guitar
熊猫弹吉他
panda playing a guitar

使用 AnimateLCM

AnimateLCM 是一个运动模块检查点和一个 LCM LoRA,它们是使用一致性学习策略创建的,该策略将图像生成先验和运动生成先验的蒸馏解耦。

import torch
from diffusers import AnimateDiffPipeline, LCMScheduler, MotionAdapter
from diffusers.utils import export_to_gif

adapter = MotionAdapter.from_pretrained("wangfuyun/AnimateLCM")
pipe = AnimateDiffPipeline.from_pretrained("emilianJR/epiCRealism", motion_adapter=adapter)
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config, beta_schedule="linear")

pipe.load_lora_weights("wangfuyun/AnimateLCM", weight_name="sd15_lora_beta.safetensors", adapter_name="lcm-lora")

pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt="A space rocket with trails of smoke behind it launching into space from the desert, 4k, high resolution",
    negative_prompt="bad quality, worse quality, low resolution",
    num_frames=16,
    guidance_scale=1.5,
    num_inference_steps=6,
    generator=torch.Generator("cpu").manual_seed(0),
)
frames = output.frames[0]
export_to_gif(frames, "animatelcm.gif")
一枚太空火箭,4K。
A space rocket, 4K

AnimateLCM 也与现有的 运动 LoRAs 兼容。

import torch
from diffusers import AnimateDiffPipeline, LCMScheduler, MotionAdapter
from diffusers.utils import export_to_gif

adapter = MotionAdapter.from_pretrained("wangfuyun/AnimateLCM")
pipe = AnimateDiffPipeline.from_pretrained("emilianJR/epiCRealism", motion_adapter=adapter)
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config, beta_schedule="linear")

pipe.load_lora_weights("wangfuyun/AnimateLCM", weight_name="sd15_lora_beta.safetensors", adapter_name="lcm-lora")
pipe.load_lora_weights("guoyww/animatediff-motion-lora-tilt-up", adapter_name="tilt-up")

pipe.set_adapters(["lcm-lora", "tilt-up"], [1.0, 0.8])
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()

output = pipe(
    prompt="A space rocket with trails of smoke behind it launching into space from the desert, 4k, high resolution",
    negative_prompt="bad quality, worse quality, low resolution",
    num_frames=16,
    guidance_scale=1.5,
    num_inference_steps=6,
    generator=torch.Generator("cpu").manual_seed(0),
)
frames = output.frames[0]
export_to_gif(frames, "animatelcm-motion-lora.gif")
一枚太空火箭,4K。
A space rocket, 4K

使用 from_single_file 与 MotionAdapter

diffusers>=0.30.0 支持通过 from_single_file 将 AnimateDiff 检查点以其原始格式加载到 MotionAdapter

from diffusers import MotionAdapter

ckpt_path = "https://huggingface.co/Lightricks/LongAnimateDiff/blob/main/lt_long_mm_32_frames.ckpt"

adapter = MotionAdapter.from_single_file(ckpt_path, torch_dtype=torch.float16)
pipe = AnimateDiffPipeline.from_pretrained("emilianJR/epiCRealism", motion_adapter=adapter)

AnimateDiffPipeline

class diffusers.AnimateDiffPipeline

<

参数

  • vae (AutoencoderKL) — 变分自动编码器 (VAE) 模型,用于将图像编码和解码为潜在表示。
  • text_encoder (CLIPTextModel) — 冻结的文本编码器 (clip-vit-large-patch14)。
  • tokenizer (CLIPTokenizer) — 一种 CLIPTokenizer 用于对文本进行分词。
  • unet (UNet2DConditionModel) — 一种 UNet2DConditionModel 用于创建 UNetMotionModel 来对编码的视频潜在表示进行降噪。
  • motion_adapter (MotionAdapter) — 一个 MotionAdapter 用于与 unet 结合使用,对编码的视频潜在表示进行降噪。
  • scheduler (SchedulerMixin) — 用于与 unet 结合使用,对编码的图像潜在表示进行降噪的调度器。可以是 DDIMSchedulerLMSDiscreteSchedulerPNDMScheduler 之一。

用于文本到视频生成的管道。

此模型继承自 DiffusionPipeline。查看超类文档以获取为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

该管道还继承了以下加载方法

__call__

< >

( 提示: Union = None 帧数: Optional = 16 高度: Optional = None 宽度: Optional = None 推理步数: int = 50 引导尺度: float = 7.5 负面提示: Union = None 每个提示的视频数量: Optional = 1 eta: float = 0.0 生成器: Union = None 潜在向量: Optional = None 提示嵌入: Optional = None 负面提示嵌入: Optional = None 图像适配器图像: Union = None 图像适配器图像嵌入: Optional = None 输出类型: Optional = 'pil' 返回字典: bool = True 跨注意力关键字参数: Optional = None 剪辑跳过: Optional = None 步骤结束回调: Optional = None 步骤结束张量输入: List = ['latents'] 解码块大小: int = 16 **关键字参数 ) AnimateDiffPipelineOutputtuple

参数

  • 提示 (strList[str], 可选) — 指导图像生成的提示或提示。如果未定义,您需要传递 prompt_embeds
  • 高度 (int, 可选, 默认值为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的像素高度。
  • 宽度 (int, 可选, 默认值为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的像素宽度。
  • 帧数 (int, 可选, 默认值为 16) — 生成的视频帧数。默认值为 16 帧,以每秒 8 帧的速度计算,相当于 2 秒的视频。
  • 推理步数 (int, 可选, 默认值为 50) — 降噪步骤数。更多的降噪步骤通常会以更慢的推理为代价产生更高质量的视频。
  • 引导尺度 (float, 可选, 默认值为 7.5) — 较高的引导尺度值鼓励模型生成与文本 提示 紧密相关的图像,但代价是图像质量下降。当 guidance_scale > 1 时启用引导尺度。
  • 负面提示 (strList[str], 可选) — 指导图像生成中不包含的内容的提示或提示。如果未定义,您需要传递 negative_prompt_embeds 而不是。当不使用引导 (guidance_scale < 1) 时,会被忽略。
  • eta (float, 可选, 默认值为 0.0) — 对应于 DDIM 论文中的参数 eta (η)。仅适用于 DDIMScheduler,在其他调度程序中会被忽略。
  • generator (torch.GeneratorList[torch.Generator], 可选) — 一个 torch.Generator 用于使生成确定性。
  • latents (torch.Tensor, 可选) — 预先生成的噪声潜码,从高斯分布采样,用作视频生成的输入。 可以用来调整相同的生成,使用不同的提示。 如果没有提供,则通过使用提供的随机 generator 采样来生成潜码张量。 潜码应为 (batch_size, num_channel, num_frames, height, width) 形状。
  • prompt_embeds (torch.Tensor, 可选) — 预先生成的文本嵌入。 可以用来轻松调整文本输入(提示权重)。 如果没有提供,文本嵌入将从 prompt 输入参数生成。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预先生成的负文本嵌入。 可以用来轻松调整文本输入(提示权重)。 如果没有提供,negative_prompt_embeds 将从 negative_prompt 输入参数生成。 ip_adapter_image — (PipelineImageInput, 可选): 可选图像输入,用于与 IP 适配器一起使用。
  • ip_adapter_image_embeds (List[torch.Tensor], 可选) — 为 IP 适配器预先生成的图像嵌入。 它应该是一个与 IP 适配器数量相同的长度列表。 每个元素应该是形状为 (batch_size, num_images, emb_dim) 的张量。 如果 do_classifier_free_guidance 设置为 True,它应该包含负图像嵌入。 如果没有提供,嵌入将从 ip_adapter_image 输入参数计算。
  • output_type (str, 可选,默认为 "pil") — 生成的视频的输出格式。 在 torch.TensorPIL.Imagenp.array 之间选择。
  • return_dict (bool, 可选,默认为 True) — 是否返回一个 TextToVideoSDPipelineOutput 而不是一个简单的元组。
  • cross_attention_kwargs (dict, 可选) — 如果指定,则传递给 AttentionProcessor 的关键字参数字典,如 self.processor 中定义。
  • clip_skip (int, 可选) — 从 CLIP 计算提示嵌入时要跳过的层数。 值为 1 表示将使用倒数第二层的输出来计算提示嵌入。
  • callback_on_step_end (Callable, 可选) — 推理过程中每次去噪步骤结束时调用的函数。 该函数使用以下参数调用: callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)callback_kwargs 将包含由 callback_on_step_end_tensor_inputs 指定的所有张量的列表。
  • callback_on_step_end_tensor_inputs (List, optional) — callback_on_step_end 函数的张量输入列表。 列表中指定的张量将作为 callback_kwargs 参数传递。 您只能包含您的管道类 ._callback_tensor_inputs 属性中列出的变量。
  • decode_chunk_size (int, defaults to 16) — 调用 decode_latents 方法时一次解码的帧数。

返回

AnimateDiffPipelineOutputtuple

如果 return_dictTrue,则返回 AnimateDiffPipelineOutput,否则返回一个 tuple,其中第一个元素是包含生成的帧的列表。

管道生成函数的调用函数。

示例

>>> import torch
>>> from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
>>> from diffusers.utils import export_to_gif

>>> adapter = MotionAdapter.from_pretrained("guoyww/animatediff-motion-adapter-v1-5-2")
>>> pipe = AnimateDiffPipeline.from_pretrained("frankjoshua/toonyou_beta6", motion_adapter=adapter)
>>> pipe.scheduler = DDIMScheduler(beta_schedule="linear", steps_offset=1, clip_sample=False)
>>> output = pipe(prompt="A corgi walking in the park")
>>> frames = output.frames[0]
>>> export_to_gif(frames, "animation.gif")

encode_prompt

< >

( prompt device num_images_per_prompt do_classifier_free_guidance negative_prompt = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None lora_scale: Optional = None clip_skip: Optional = None )

参数

  • prompt (strList[str], optional) — 要编码的提示 device — (torch.device): torch 设备
  • num_images_per_prompt (int) — 每个提示应该生成的图像数量
  • do_classifier_free_guidance (bool) — 是否使用无分类器引导
  • negative_prompt (strList[str], optional) — 用于引导图像生成的提示或提示。 如果未定义,则必须改为传递 negative_prompt_embeds。 在不使用引导的情况下将被忽略(即,如果 guidance_scale 小于 1,则被忽略)。
  • prompt_embeds (torch.Tensor, optional) — 预先生成的文本嵌入。 可用于轻松调整文本输入,例如 提示加权。 如果未提供,文本嵌入将从 prompt 输入参数生成。
  • negative_prompt_embeds (torch.Tensor, optional) — 预先生成的负文本嵌入。 可用于轻松调整文本输入,例如 提示加权。 如果未提供,负文本嵌入将从 negative_prompt 输入参数生成。
  • lora_scale (float, 可选) — 如果加载了 LoRA 层,则此 LoRA 比例将应用于文本编码器的所有 LoRA 层。
  • clip_skip (int, 可选) — 在计算提示嵌入时从 CLIP 跳过的层数。值为 1 表示将使用倒数第二层的输出计算提示嵌入。

将提示编码为文本编码器隐藏状态。

AnimateDiffControlNetPipeline

class diffusers.AnimateDiffControlNetPipeline

< >

( vae: AutoencoderKL text_encoder: CLIPTextModel tokenizer: CLIPTokenizer unet: Union motion_adapter: MotionAdapter controlnet: Union scheduler: KarrasDiffusionSchedulers feature_extractor: Optional = None image_encoder: Optional = None )

参数

用于带有 ControlNet 指导的文本到视频生成的管道。

此模型继承自 DiffusionPipeline。查看超类文档以获取为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

该管道还继承了以下加载方法

__call__

< >

( 提示: Union = None 帧数: Optional = 16 高度: Optional = None 宽度: Optional = None 推理步骤数: int = 50 引导比例: float = 7.5 负向提示: Union = None 每个提示的视频数: Optional = 1 eta: float = 0.0 生成器: Union = None 潜在变量: Optional = None 提示嵌入: Optional = None 负向提示嵌入: Optional = None IP 适配器图像: Union = None IP 适配器图像嵌入: Union = None 条件帧: Optional = None 输出类型: Optional = 'pil' 返回字典: bool = True 交叉注意力参数: Optional = None ControlNet 条件比例: Union = 1.0 猜测模式: bool = False 控制引导开始: Union = 0.0 控制引导结束: Union = 1.0 CLIP 跳过: Optional = None 步骤结束回调: Optional = None 步骤结束张量输入回调: List = ['latents'] 解码块大小: int = 16 ) AnimateDiffPipelineOutput元组

参数

  • 提示 (strList[str], 可选) — 指导图像生成的提示或提示。如果未定义,则需要传递 prompt_embeds
  • 高度 (int, 可选, 默认为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的像素高度。
  • 宽度 (int, 可选, 默认为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的像素宽度。
  • 帧数 (int, 可选, 默认为 16) — 生成的视频帧数。默认为 16 帧,以 8 帧/秒的速度播放相当于 2 秒的视频。
  • 推理步骤数 (int, 可选, 默认为 50) — 降噪步骤数。更多的降噪步骤通常会导致更高质量的视频,但会以更慢的推理为代价。
  • 引导尺度 (float, 可选, 默认值 7.5) — 较高的引导尺度值会鼓励模型生成与文本 提示 密切相关的图像,但会降低图像质量。当 引导尺度 > 1 时,启用引导尺度。
  • 负面提示 (strList[str], 可选) — 指导图像生成中不包含内容的提示或提示。如果没有定义,则需要传递 negative_prompt_embeds 代替。当不使用引导 (guidance_scale < 1) 时,将忽略此参数。
  • η (float, 可选, 默认值 0.0) — 对应于 DDIM 论文中的参数 η。仅适用于 DDIMScheduler,其他调度器会忽略该参数。
  • 生成器 (torch.GeneratorList[torch.Generator], 可选) — 一个 torch.Generator,用于使生成确定性。
  • 潜在变量 (torch.Tensor, 可选) — 从高斯分布采样的预生成噪声潜在变量,用作视频生成的输入。可用于使用不同的提示调整相同的生成。如果没有提供,则通过使用提供的随机 生成器 采样来生成潜在变量张量。潜在变量的形状应为 (batch_size, num_channel, num_frames, height, width)
  • 提示嵌入 (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入 (提示加权)。如果没有提供,则从 提示 输入参数生成文本嵌入。
  • 负面提示嵌入 (torch.Tensor, 可选) — 预生成的负面文本嵌入。可用于轻松调整文本输入 (提示加权)。如果没有提供,则从 负面提示 输入参数生成 negative_prompt_embeds
  • IP 适配器图像 (PipelineImageInput, 可选) — 用于 IP 适配器的可选图像输入。
  • IP 适配器图像嵌入 (List[torch.Tensor], 可选) — IP 适配器的预生成图像嵌入。它应该是一个与 IP 适配器数量相同的长度的列表。每个元素应该是一个形状为 (batch_size, num_images, emb_dim) 的张量。如果 do_classifier_free_guidance 设置为 True,它应该包含负面图像嵌入。如果没有提供,则从 ip_adapter_image 输入参数计算嵌入。
  • 调节帧 (List[PipelineImageInput], 可选) — 提供给 unet 的 ControlNet 输入条件,用于生成引导。如果指定了多个 ControlNet,则图像必须作为列表传递,以便列表的每个元素可以正确批处理以输入到单个 ControlNet。
  • output_type (str, optional, defaults to "pil") — 生成的视频的输出格式。在 torch.TensorPIL.Imagenp.array 之间选择。
  • return_dict (bool, optional, defaults to True) — 是否返回 TextToVideoSDPipelineOutput 而不是一个简单的元组。
  • cross_attention_kwargs (dict, optional) — 如果指定,则传递给 AttentionProcessor 的关键字参数字典,如 self.processor 中定义的那样。
  • controlnet_conditioning_scale (float or List[float], optional, defaults to 1.0) — ControlNet 的输出在添加到原始 unet 中的残差之前,将乘以 controlnet_conditioning_scale。如果在 init 中指定了多个 ControlNet,则可以将相应的比例设置为列表。
  • guess_mode (bool, optional, defaults to False) — 即使删除所有提示,ControlNet 编码器也会尝试识别输入图像的内容。建议使用 3.0 到 5.0 之间的 guidance_scale 值。
  • control_guidance_start (float or List[float], optional, defaults to 0.0) — ControlNet 开始应用的总步数百分比。
  • control_guidance_end (float or List[float], optional, defaults to 1.0) — ControlNet 停止应用的总步数百分比。
  • clip_skip (int, optional) — 从 CLIP 计算提示嵌入时要跳过的层数。值为 1 意味着将使用倒数第二层的输出计算提示嵌入。
  • callback_on_step_end (Callable, optional) — 推理期间在每个去噪步骤结束时调用的函数。该函数使用以下参数调用: callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)callback_kwargs 将包含由 callback_on_step_end_tensor_inputs 指定的所有张量列表。
  • callback_on_step_end_tensor_inputs (List, optional) — callback_on_step_end 函数的张量输入列表。列表中指定的张量将作为 callback_kwargs 参数传递。你只能包含在管道类 ._callback_tensor_inputs 属性中列出的变量。

返回

AnimateDiffPipelineOutputtuple

如果 return_dictTrue,则返回 AnimateDiffPipelineOutput,否则返回一个 tuple,其中第一个元素是包含生成的帧的列表。

管道生成函数的调用函数。

示例

encode_prompt

< >

( prompt device num_images_per_prompt do_classifier_free_guidance negative_prompt = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None lora_scale: Optional = None clip_skip: Optional = None )

参数

  • prompt (strList[str], 可选) — 要编码的提示 device — (torch.device): torch 设备
  • num_images_per_prompt (int) — 每个提示应该生成的图像数量
  • do_classifier_free_guidance (bool) — 是否使用分类器免费引导
  • negative_prompt (strList[str], 可选) — 不引导图像生成的提示或提示。如果未定义,则必须传递 negative_prompt_embeds。当不使用引导时会被忽略(即,如果 guidance_scale 小于 1,则会被忽略)。
  • prompt_embeds (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,则将从 prompt 输入参数生成文本嵌入。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预生成的负文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,则将从 negative_prompt 输入参数生成 negative_prompt_embeds
  • lora_scale (float, 可选) — 如果加载了 LoRA 层,则将应用于文本编码器所有 LoRA 层的 LoRA 比例。
  • clip_skip (int, 可选) — 从 CLIP 计算提示嵌入时要跳过的层数。值为 1 表示将使用倒数第二层的输出来计算提示嵌入。

将提示编码为文本编码器隐藏状态。

AnimateDiffSparseControlNetPipeline

class diffusers.AnimateDiffSparseControlNetPipeline

使用 SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models 中描述的方法进行受控文本到视频生成的管道。

此模型继承自 DiffusionPipeline。查看超类文档以获取为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

该管道还继承了以下加载方法

__call__

< >

( prompt: Union = None height: Optional = None width: Optional = None num_frames: int = 16 num_inference_steps: int = 50 guidance_scale: float = 7.5 negative_prompt: Union = None num_videos_per_prompt: int = 1 eta: float = 0.0 generator: Union = None latents: Optional = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None ip_adapter_image: Union = None ip_adapter_image_embeds: Optional = None conditioning_frames: Optional = None output_type: str = 'pil' return_dict: bool = True cross_attention_kwargs: Optional = None controlnet_conditioning_scale: Union = 1.0 controlnet_frame_indices: List = [0] guess_mode: bool = False clip_skip: Optional = None callback_on_step_end: Optional = None callback_on_step_end_tensor_inputs: List = ['latents'] ) AnimateDiffPipelineOutput or tuple

参数

  • prompt (strList[str], 可选) — 指导图像生成的提示或提示。如果未定义,您需要传递 prompt_embeds
  • height (int, 可选, 默认值为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的高度(以像素为单位)。
  • width (int, 可选, 默认值为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的宽度(以像素为单位)。
  • num_frames (int, 可选, 默认值为 16) — 生成的视频帧数。默认值为 16 帧,在 8 帧/秒的情况下,视频时长为 2 秒。
  • num_inference_steps (int, 可选, 默认值为 50) — 降噪步骤数。更多的降噪步骤通常会导致更高质量的视频,但推理速度会变慢。
  • guidance_scale (float, 可选, 默认值为 7.5) — 较高的引导尺度值会鼓励模型生成与文本 prompt 密切相关的图像,但图像质量会降低。当 guidance_scale > 1 时启用引导尺度。
  • negative_prompt (strList[str], 可选) — 指导图像生成中不包含内容的提示或提示。如果未定义,您需要传递 negative_prompt_embeds。在不使用引导(guidance_scale < 1)时忽略。
  • eta (float, 可选, 默认值为 0.0) — 对应于 DDIM 论文中的参数 eta (η)。仅适用于 DDIMScheduler,在其他调度器中将被忽略。
  • generator (torch.GeneratorList[torch.Generator], 可选) — 一个 torch.Generator 用于使生成确定性。
  • latents (torch.Tensor, 可选) — 从高斯分布中采样的预生成噪声潜码,用作视频生成的输入。可用于使用不同的提示调整相同的生成。如果未提供,则通过使用提供的随机 generator 采样来生成潜码张量。潜码的形状应为 (batch_size, num_channel, num_frames, height, width)
  • prompt_embeds (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入(提示加权)。如果未提供,则从 prompt 输入参数生成文本嵌入。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预生成的负文本嵌入。可用于轻松调整文本输入(提示加权)。如果未提供,则从 negative_prompt 输入参数生成 negative_prompt_embeds。ip_adapter_image — (PipelineImageInput, 可选): 可选的图像输入,用于与 IP 适配器配合使用。
  • ip_adapter_image_embeds (List[torch.Tensor], 可选) — 为 IP 适配器预生成的图像嵌入。它应该是一个与 IP 适配器数量相同的列表。每个元素应该是一个形状为 (batch_size, num_images, emb_dim) 的张量。如果 do_classifier_free_guidance 设置为 True,它应该包含负图像嵌入。如果未提供,则从 ip_adapter_image 输入参数计算嵌入。
  • conditioning_frames (List[PipelineImageInput], 可选) — 提供给 unet 的 SparseControlNet 输入,用于生成指导。
  • output_type (str, 可选, 默认值为 "pil") — 生成的视频的输出格式。在 torch.TensorPIL.Imagenp.array 之间选择。
  • return_dict (bool, 可选, 默认值为 True) — 是否返回一个 TextToVideoSDPipelineOutput 而不是一个简单的元组。
  • cross_attention_kwargs (dict, 可选) — 如果指定,则传递给 controlnet_conditioning_scale (floatList[float], 可选, 默认值为 1.0) — ControlNet 的输出在添加到原始 unet 的残差之前,会乘以 controlnet_conditioning_scale。如果在 init 中指定了多个 ControlNet,可以将相应的比例设置为列表。
  • controlnet_frame_indices (List[int]) — 条件帧必须应用于生成的位置索引。可以提供多个帧来引导模型生成类似结构的输出,其中 unet 可以“填补间隙”以进行插值视频,或者可以提供单个帧以获取一般预期结构。必须与 conditioning_frames 的长度相同。
  • clip_skip (int, 可选) — 计算提示嵌入时要从 CLIP 中跳过的层数。值为 1 表示将使用倒数第二层的输出来计算提示嵌入。
  • callback_on_step_end (Callable, 可选) — 在推断期间每个降噪步骤结束时调用的函数。该函数使用以下参数调用:callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)callback_kwargs 将包含由 callback_on_step_end_tensor_inputs 指定的所有张量的列表。
  • callback_on_step_end_tensor_inputs (List, 可选) — callback_on_step_end 函数的张量输入列表。列表中指定的张量将作为 callback_kwargs 参数传递。您只能包含管道类 ._callback_tensor_inputs 属性中列出的变量。

返回

AnimateDiffPipelineOutputtuple

如果 return_dictTrue,则返回 AnimateDiffPipelineOutput,否则返回一个 tuple,其中第一个元素是包含生成的帧的列表。

管道生成函数的调用函数。

示例

>>> import torch
>>> from diffusers import AnimateDiffSparseControlNetPipeline
>>> from diffusers.models import AutoencoderKL, MotionAdapter, SparseControlNetModel
>>> from diffusers.schedulers import DPMSolverMultistepScheduler
>>> from diffusers.utils import export_to_gif, load_image

>>> model_id = "SG161222/Realistic_Vision_V5.1_noVAE"
>>> motion_adapter_id = "guoyww/animatediff-motion-adapter-v1-5-3"
>>> controlnet_id = "guoyww/animatediff-sparsectrl-scribble"
>>> lora_adapter_id = "guoyww/animatediff-motion-lora-v1-5-3"
>>> vae_id = "stabilityai/sd-vae-ft-mse"
>>> device = "cuda"

>>> motion_adapter = MotionAdapter.from_pretrained(motion_adapter_id, torch_dtype=torch.float16).to(device)
>>> controlnet = SparseControlNetModel.from_pretrained(controlnet_id, torch_dtype=torch.float16).to(device)
>>> vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16).to(device)
>>> scheduler = DPMSolverMultistepScheduler.from_pretrained(
...     model_id,
...     subfolder="scheduler",
...     beta_schedule="linear",
...     algorithm_type="dpmsolver++",
...     use_karras_sigmas=True,
... )
>>> pipe = AnimateDiffSparseControlNetPipeline.from_pretrained(
...     model_id,
...     motion_adapter=motion_adapter,
...     controlnet=controlnet,
...     vae=vae,
...     scheduler=scheduler,
...     torch_dtype=torch.float16,
... ).to(device)
>>> pipe.load_lora_weights(lora_adapter_id, adapter_name="motion_lora")
>>> pipe.fuse_lora(lora_scale=1.0)

>>> prompt = "an aerial view of a cyberpunk city, night time, neon lights, masterpiece, high quality"
>>> negative_prompt = "low quality, worst quality, letterboxed"

>>> image_files = [
...     "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-scribble-1.png",
...     "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-scribble-2.png",
...     "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/animatediff-scribble-3.png",
... ]
>>> condition_frame_indices = [0, 8, 15]
>>> conditioning_frames = [load_image(img_file) for img_file in image_files]

>>> video = pipe(
...     prompt=prompt,
...     negative_prompt=negative_prompt,
...     num_inference_steps=25,
...     conditioning_frames=conditioning_frames,
...     controlnet_conditioning_scale=1.0,
...     controlnet_frame_indices=condition_frame_indices,
...     generator=torch.Generator().manual_seed(1337),
... ).frames[0]
>>> export_to_gif(video, "output.gif")

encode_prompt

< >

( prompt device num_images_per_prompt do_classifier_free_guidance negative_prompt = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None lora_scale: Optional = None clip_skip: Optional = None )

参数

  • prompt (strList[str], 可选) — 要编码的提示 device — (torch.device): torch 设备
  • num_images_per_prompt (int) — 每个提示应该生成的图像数量
  • do_classifier_free_guidance (bool) — 是否使用分类器免费引导
  • negative_prompt (strList[str], 可选) — 不引导图像生成的提示或提示。如果未定义,则必须改为传递 negative_prompt_embeds。在不使用引导时忽略(即,如果 guidance_scale 小于 1 则忽略)。
  • prompt_embeds (torch.Tensor, 可选) — 预先生成的文本嵌入。可用于轻松调整文本输入,例如 提示权重。如果未提供,将根据 prompt 输入参数生成文本嵌入。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预先生成的负面文本嵌入。可用于轻松调整文本输入,例如 提示权重。如果未提供,将根据 negative_prompt 输入参数生成 negative_prompt_embeds。
  • lora_scale (float, 可选) — 如果加载了 LoRA 层,则将应用于文本编码器所有 LoRA 层的 LoRA 缩放比例。
  • clip_skip (int, 可选) — 从 CLIP 计算提示嵌入时要跳过的层数。值为 1 表示将使用倒数第二层的输出计算提示嵌入。

将提示编码为文本编码器隐藏状态。

AnimateDiffSDXLPipeline

diffusers.AnimateDiffSDXLPipeline

< >

( vae: AutoencoderKL text_encoder: CLIPTextModel text_encoder_2: CLIPTextModelWithProjection tokenizer: CLIPTokenizer tokenizer_2: CLIPTokenizer unet: Union motion_adapter: MotionAdapter scheduler: Union image_encoder: CLIPVisionModelWithProjection = None feature_extractor: CLIPImageProcessor = None force_zeros_for_empty_prompt: bool = True )

参数

  • vae (AutoencoderKL) — 变分自动编码器 (VAE) 模型,用于将图像编码和解码为潜在表示。
  • text_encoder (CLIPTextModel) — 冻结的文本编码器。Stable Diffusion XL 使用 CLIP 的文本部分,特别是 clip-vit-large-patch14 变体。
  • text_encoder_2 ( CLIPTextModelWithProjection) — 第二个冻结的文本编码器。Stable Diffusion XL 使用 CLIP 的文本和池部分,特别是 laion/CLIP-ViT-bigG-14-laion2B-39B-b160k 变体。
  • tokenizer (CLIPTokenizer) — CLIPTokenizer 类别的分词器。
  • tokenizer_2 (CLIPTokenizer) — CLIPTokenizer 类别的第二个分词器。
  • unet (UNet2DConditionModel) — 用于对编码的图像潜在变量进行降噪的条件 U-Net 架构。
  • scheduler (SchedulerMixin) — 用于结合 unet 对编码的图像潜在变量进行降噪的调度器。可以是 DDIMSchedulerLMSDiscreteSchedulerPNDMScheduler 之一。
  • force_zeros_for_empty_prompt (bool, 可选, 默认值: "True") — 是否强制将负面提示嵌入设置为 0。另请参阅 stabilityai/stable-diffusion-xl-base-1-0 的配置。

使用 Stable Diffusion XL 进行文本到视频生成的管道。

此模型继承自 DiffusionPipeline。查看超类文档,了解该库为所有管道实现的通用方法(例如下载或保存、在特定设备上运行等)。

该管道还继承了以下加载方法

__call__

< >

( 提示词: Union = None 提示词_2: Union = None 帧数: int = 16 高度: Optional = None 宽度: Optional = None 推理步骤数: int = 50 时间步: List = None 噪声等级: List = None 去噪结束: Optional = None 引导尺度: float = 5.0 负面提示词: Union = None 负面提示词_2: Union = None 每个提示词的视频数量: Optional = 1 eta: float = 0.0 生成器: Union = None 潜在变量: Optional = None 提示词嵌入: Optional = None 负面提示词嵌入: Optional = None 池化提示词嵌入: Optional = None 负面池化提示词嵌入: Optional = None 图像适配器图像: Union = None 图像适配器图像嵌入: Optional = None 输出类型: Optional = 'pil' 返回字典: bool = True 交叉注意力关键字参数: Optional = None 引导重缩放: float = 0.0 原始大小: Optional = None 裁剪坐标左上角: Tuple = (0, 0) 目标大小: Optional = None 负面原始大小: Optional = None 负面裁剪坐标左上角: Tuple = (0, 0) 负面目标大小: Optional = None 剪辑跳过: Optional = None 步骤结束回调: Optional = None 步骤结束张量输入回调: List = ['latents'] ) AnimateDiffPipelineOutput 或者 元组

参数

  • 提示词 (strList[str], 可选) — 用于引导视频生成的提示词或提示词列表。 如果未定义,则必须传递 prompt_embeds。 代替。
  • 提示词_2 (strList[str], 可选) — 要发送到 tokenizer_2text_encoder_2 的提示词或提示词列表。 如果未定义,则 提示词 用于两个文本编码器中。 帧数 — 生成的视频帧数。 默认为 16 帧,以每秒 8 帧的速度生成 2 秒的视频。
  • 高度 (int, 可选,默认为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的高度(以像素为单位)。 默认情况下设置为 1024,以获得最佳效果。 任何低于 512 像素的图像都不会在 stabilityai/stable-diffusion-xl-base-1.0 和未针对低分辨率专门微调的检查点上正常工作。
  • 宽度 (int, 可选,默认为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的宽度(以像素为单位)。 默认情况下设置为 1024,以获得最佳效果。 任何低于 512 像素的图像都不会在 stabilityai/stable-diffusion-xl-base-1.0 和未针对低分辨率专门微调的检查点上正常工作。
  • 推理步骤数 (int, 可选,默认为 50) — 去噪步骤数。 更多的去噪步骤通常会导致更高的视频质量,但会降低推理速度。
  • timesteps (List[int], 可选) — 用于降噪过程的自定义时间步,适用于在 set_timesteps 方法中支持 timesteps 参数的调度器。如果没有定义,则使用将 num_inference_steps 传递时的默认行为。必须按降序排列。
  • sigmas (List[float], 可选) — 用于降噪过程的自定义 sigma,适用于在 set_timesteps 方法中支持 sigmas 参数的调度器。如果没有定义,则使用将 num_inference_steps 传递时的默认行为。
  • denoising_end (float, 可选) — 当指定时,确定在故意提前终止降噪过程之前完成的降噪过程的总部分(介于 0.0 和 1.0 之间)。结果,返回的样本将仍然保留由调度器选择的离散时间步决定的大量噪声。denoising_end 参数应该最好地用于当此管道构成“降噪混合”多管道设置的一部分时,如 优化图像输出 中所述
  • guidance_scale (float, 可选,默认值为 5.0) — 如 无分类器扩散引导 中所定义的引导比例。guidance_scale 被定义为 Imagen 论文 中方程 2 的 w。通过将 guidance_scale > 1 来启用引导比例。更高的引导比例鼓励生成与文本 prompt 密切相关的图像,通常以降低视频质量为代价。
  • negative_prompt (strList[str], 可选) — 不引导视频生成的提示或提示。如果没有定义,则必须传递 negative_prompt_embeds。当不使用引导时被忽略(即,如果 guidance_scale 小于 1,则被忽略)。
  • negative_prompt_2 (strList[str], 可选) — 要发送到 tokenizer_2text_encoder_2 的不引导视频生成的提示或提示。如果没有定义,则在两个文本编码器中都使用 negative_prompt
  • num_videos_per_prompt (int, 可选,默认值为 1) — 每个提示要生成的视频数量。
  • eta (float, 可选,默认值为 0.0) — 对应于 DDIM 论文中的参数 eta (η):https://arxiv.org/abs/2010.02502。仅适用于 schedulers.DDIMScheduler,对于其他调度器将被忽略。
  • generator (torch.GeneratorList[torch.Generator], 可选) — 一个或多个 torch 生成器,用于使生成确定性。
  • latents (torch.Tensor, 可选) — 预先生成的噪声潜变量,从高斯分布中采样,用作视频生成的输入。 可用于使用不同的提示来调整相同的生成。 如果未提供,则将通过使用提供的随机 generator 采样生成潜变量张量。
  • prompt_embeds (torch.Tensor, 可选) — 预先生成的文本嵌入。 可用于轻松调整文本输入,例如 提示加权。 如果未提供,则将从 prompt 输入参数生成文本嵌入。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预先生成的负面文本嵌入。 可用于轻松调整文本输入,例如 提示加权。 如果未提供,则将从 negative_prompt 输入参数生成 negative_prompt_embeds。
  • pooled_prompt_embeds (torch.Tensor, 可选) — 预先生成的池化文本嵌入。 可用于轻松调整文本输入,例如 提示加权。 如果未提供,则将从 prompt 输入参数生成池化文本嵌入。
  • negative_pooled_prompt_embeds (torch.Tensor, 可选) — 预先生成的负面池化文本嵌入。 可用于轻松调整文本输入,例如 提示加权。 如果未提供,则将从 negative_prompt 输入参数生成池化 negative_prompt_embeds。 ip_adapter_image — (PipelineImageInput, 可选): 可选图像输入,用于与 IP 适配器一起使用。
  • ip_adapter_image_embeds (List[torch.Tensor], 可选) — 预先生成的 IP 适配器的图像嵌入。 如果未提供,则从 ip_adapter_image 输入参数计算嵌入。
  • output_type (str, 可选, 默认值 "pil") — 生成的视频的输出格式。 在 PIL: PIL.Image.Imagenp.array 之间选择。
  • return_dict (bool, 可选, 默认值 True) — 是否返回 ~pipelines.stable_diffusion_xl.AnimateDiffPipelineOutput 而不是普通元组。
  • cross_attention_kwargs (dict, 可选) — 如果指定,则传递给 AttentionProcessor 的关键字参数字典,如 diffusers.models.attention_processor 中的 self.processor 所定义。
  • guidance_rescale (float, 可选, 默认值 0.0) — 常见的扩散噪声调度和样本步骤存在缺陷 提出的引导重缩放因子 guidance_scale 定义为 常见的扩散噪声
  • original_size (Tuple[int], optional, defaults to (1024, 1024)) — 如果original_sizetarget_size不同,则图像看起来像是向下或向上采样。如果未指定,original_size默认为(height, width)。 SDXL 的微调的一部分,如 https://huggingface.co/papers/2307.01952 的第 2.2 节所述。
  • crops_coords_top_left (Tuple[int], optional, defaults to (0, 0)) — crops_coords_top_left 可用于生成看起来从crops_coords_top_left 位置向下“裁剪”的图像。 通过将crops_coords_top_left 设置为 (0, 0) 通常可以获得良好的、居中的图像。 SDXL 的微调的一部分,如 https://huggingface.co/papers/2307.01952 的第 2.2 节所述。
  • target_size (Tuple[int], optional, defaults to (1024, 1024)) — 在大多数情况下,target_size 应设置为生成的图像的所需高度和宽度。如果未指定,它将默认为(height, width)。 SDXL 的微调的一部分,如 https://huggingface.co/papers/2307.01952 的第 2.2 节所述。
  • negative_original_size (Tuple[int], optional, defaults to (1024, 1024)) — 基于特定图像分辨率对生成过程进行负面调节。 SDXL 的微调的一部分,如 https://huggingface.co/papers/2307.01952 的第 2.2 节所述。有关更多信息,请参阅此问题线程:https://github.com/huggingface/diffusers/issues/4208
  • negative_crops_coords_top_left (Tuple[int], optional, defaults to (0, 0)) — 基于特定裁剪坐标对生成过程进行负面调节。 SDXL 的微调的一部分,如 https://huggingface.co/papers/2307.01952 的第 2.2 节所述。有关更多信息,请参阅此问题线程:https://github.com/huggingface/diffusers/issues/4208
  • negative_target_size (Tuple[int], optional, defaults to (1024, 1024)) — 基于目标图像分辨率对生成过程进行负面调节。在大多数情况下,它应该与target_size 相同。 SDXL 的微调的一部分,如 https://huggingface.co/papers/2307.01952 的第 2.2 节所述。有关更多信息,请参阅此问题线程:https://github.com/huggingface/diffusers/issues/4208
  • callback_on_step_end (Callable, optional) — 推理过程中每次降噪步骤结束时调用的函数。该函数使用以下参数调用:callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)callback_kwargs 将包含由callback_on_step_end_tensor_inputs 指定的所有张量列表。
  • callback_on_step_end_tensor_inputs (List, optional) — callback_on_step_end 函数的张量输入列表。列表中指定的张量将作为callback_kwargs 参数传递。您只能包含在管道类._callback_tensor_inputs 属性中列出的变量。

返回

AnimateDiffPipelineOutputtuple

如果 return_dictTrue,则返回 AnimateDiffPipelineOutput,否则返回一个 tuple,其中第一个元素是包含生成的帧的列表。

调用管道以进行生成时调用的函数。

示例

>>> import torch
>>> from diffusers.models import MotionAdapter
>>> from diffusers import AnimateDiffSDXLPipeline, DDIMScheduler
>>> from diffusers.utils import export_to_gif

>>> adapter = MotionAdapter.from_pretrained(
...     "a-r-r-o-w/animatediff-motion-adapter-sdxl-beta", torch_dtype=torch.float16
... )

>>> model_id = "stabilityai/stable-diffusion-xl-base-1.0"
>>> scheduler = DDIMScheduler.from_pretrained(
...     model_id,
...     subfolder="scheduler",
...     clip_sample=False,
...     timestep_spacing="linspace",
...     beta_schedule="linear",
...     steps_offset=1,
... )
>>> pipe = AnimateDiffSDXLPipeline.from_pretrained(
...     model_id,
...     motion_adapter=adapter,
...     scheduler=scheduler,
...     torch_dtype=torch.float16,
...     variant="fp16",
... ).to("cuda")

>>> # enable memory savings
>>> pipe.enable_vae_slicing()
>>> pipe.enable_vae_tiling()

>>> output = pipe(
...     prompt="a panda surfing in the ocean, realistic, high quality",
...     negative_prompt="low quality, worst quality",
...     num_inference_steps=20,
...     guidance_scale=8,
...     width=1024,
...     height=1024,
...     num_frames=16,
... )

>>> frames = output.frames[0]
>>> export_to_gif(frames, "animation.gif")

encode_prompt

< >

( 提示: str 提示_2: Optional = None 设备: Optional = None 每个提示的视频数量: int = 1 使用分类器免费引导: bool = True 负面提示: Optional = None 负面提示_2: Optional = None 提示嵌入: Optional = None 负面提示嵌入: Optional = None 合并的提示嵌入: Optional = None 负面合并的提示嵌入: Optional = None LoRA 缩放比例: Optional = None CLIP 跳跃: Optional = None )

参数

  • 提示 (strList[str], 可选) — 要编码的提示
  • 提示_2 (strList[str], 可选) — 要发送到 tokenizer_2text_encoder_2 的提示或提示。如果未定义,则在两个文本编码器中都使用 提示设备 — (torch.device): PyTorch 设备
  • 每个提示的视频数量 (int) — 每个提示应该生成的图像数量
  • 使用分类器免费引导 (bool) — 是否使用分类器免费引导
  • 负面提示 (strList[str], 可选) — 用于不引导图像生成的提示或提示。如果未定义,则必须传递 negative_prompt_embeds。当不使用引导时(即,如果 guidance_scale 小于 1)将被忽略。
  • 负面提示_2 (strList[str], 可选) — 用于不引导图像生成的提示或提示,要发送到 tokenizer_2text_encoder_2。如果未定义,则在两个文本编码器中都使用 negative_prompt
  • 提示嵌入 (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如提示加权。如果未提供,则将根据 提示 输入参数生成文本嵌入。
  • 负面提示嵌入 (torch.Tensor, 可选) — 预生成的负面文本嵌入。可用于轻松调整文本输入,例如提示加权。如果未提供,则将根据 negative_prompt 输入参数生成 negative_prompt_embeds。
  • 合并的提示嵌入 (torch.Tensor, 可选) — 预生成的合并文本嵌入。可用于轻松调整文本输入,例如提示加权。如果未提供,则将根据 提示 输入参数生成合并文本嵌入。
  • negative_pooled_prompt_embeds (torch.Tensor, optional) — 预先生成的负面池化文本嵌入。可以用于轻松调整文本输入,例如提示加权。如果未提供,则会从negative_prompt输入参数生成池化负面_prompt_embeds
  • lora_scale (float, optional) — 如果加载了 LoRA 层,则会将此 LoRA 缩放比例应用于文本编码器的所有 LoRA 层。
  • clip_skip (int, optional) — 在计算提示嵌入时要从 CLIP 跳过的层数。值为 1 意味着将使用倒数第二层的输出计算提示嵌入。

将提示编码为文本编码器隐藏状态。

get_guidance_scale_embedding

< >

( w: Tensor embedding_dim: int = 512 dtype: dtype = torch.float32 ) torch.Tensor

参数

  • w (torch.Tensor) — 使用指定的引导比例生成嵌入向量,以随后丰富时间步长嵌入。
  • embedding_dim (int, optional, defaults to 512) — 要生成的嵌入的维度。
  • dtype (torch.dtype, optional, defaults to torch.float32) — 生成的嵌入的数据类型。

返回

torch.Tensor

形状为(len(w), embedding_dim)的嵌入向量。

参见 https://github.com/google-research/vdm/blob/dc27b98a554f65cdc654b800da5aa1846545d41b/model_vdm.py#L298

AnimateDiffVideoToVideoPipeline

class diffusers.AnimateDiffVideoToVideoPipeline

< >

( vae: AutoencoderKL text_encoder: CLIPTextModel tokenizer: CLIPTokenizer unet: UNet2DConditionModel motion_adapter: MotionAdapter scheduler: Union feature_extractor: CLIPImageProcessor = None image_encoder: CLIPVisionModelWithProjection

参数

用于视频到视频生成的管道。

此模型继承自 DiffusionPipeline。查看超类文档以获取为所有管道实现的通用方法(下载、保存、在特定设备上运行等)。

该管道还继承了以下加载方法

__call__

< >

( video: List = None prompt: Union = None height: Optional = None width: Optional = None num_inference_steps: int = 50 timesteps: Optional = None sigmas: Optional = None guidance_scale: float = 7.5 strength: float = 0.8 negative_prompt: Union = None num_videos_per_prompt: Optional = 1 eta: float = 0.0 generator: Union = None latents: Optional = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None ip_adapter_image: Union = None ip_adapter_image_embeds: Optional = None output_type: Optional = 'pil' return_dict: bool = True cross_attention_kwargs: Optional = None clip_skip: Optional = None callback_on_step_end: Optional = None callback_on_step_end_tensor_inputs: List = ['latents'] decode_chunk_size: int = 16 ) pipelines.animatediff.pipeline_output.AnimateDiffPipelineOutputtuple

参数

  • video (List[PipelineImageInput]) — 用于调节生成的输入视频。必须是视频的图像/帧列表。
  • prompt (strList[str], 可选) — 指导图像生成的提示或提示。如果未定义,则需要传递 prompt_embeds
  • height (int, 可选, 默认为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的高度(以像素为单位)。
  • width (int, 可选, 默认为 self.unet.config.sample_size * self.vae_scale_factor) — 生成的视频的宽度(以像素为单位)。
  • num_inference_steps (int, 可选, 默认为 50) — 降噪步骤的数量。更多的降噪步骤通常会导致更高的视频质量,但会降低推理速度。
  • timesteps (List[int], 可选) — 用于降噪过程的自定义时间步长,适用于在其 set_timesteps 方法中支持 timesteps 参数的调度器。如果未定义,则使用传递 num_inference_steps 时的默认行为。必须以降序排列。
  • sigmas (List[float], 可选) — 用于降噪过程的自定义 sigma,适用于在其 set_timesteps 方法中支持 sigmas 参数的调度器。如果未定义,则使用传递 num_inference_steps 时的默认行为。
  • strength (float, 可选, 默认为 0.8) — 较高的强度会导致原始视频和生成视频之间存在更多差异。
  • guidance_scale (float, 可选, 默认为 7.5) — 较高的引导比例值鼓励模型生成与文本 prompt 密切相关的图像,但会降低图像质量。当 guidance_scale > 1 时,引导比例将被启用。
  • negative_prompt (strList[str], 可选) — 指导图像生成中不包含内容的提示或提示。如果未定义,则需要改为传递 negative_prompt_embeds。当不使用引导时忽略(guidance_scale < 1)。
  • eta (float, 可选, 默认值为 0.0) — 对应于 DDIM 论文中的参数 eta (η)。仅适用于 DDIMScheduler,在其他调度器中会被忽略。
  • generator (torch.GeneratorList[torch.Generator], 可选) — 一个 torch.Generator 用于使生成确定性。
  • latents (torch.Tensor, 可选) — 从高斯分布中采样的预生成噪声潜码,用作视频生成的输入。可用于使用不同的提示调整相同的生成。如果未提供,则潜码张量是通过使用提供的随机 generator 采样生成的。潜码应为 (batch_size, num_channel, num_frames, height, width) 形状。
  • prompt_embeds (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入(提示加权)。如果未提供,则文本嵌入将从 prompt 输入参数生成。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预生成的负文本嵌入。可用于轻松调整文本输入(提示加权)。如果未提供,则 negative_prompt_embeds 将从 negative_prompt 输入参数生成。 ip_adapter_image — (PipelineImageInput, 可选): 可选的图像输入以与 IP 适配器一起使用。
  • ip_adapter_image_embeds (List[torch.Tensor], 可选) — 为 IP-Adapter 预生成的图像嵌入。它应该是一个与 IP-Adapter 数量相同的长度列表。每个元素应该是一个 (batch_size, num_images, emb_dim) 形状的张量。如果 do_classifier_free_guidance 设置为 True,则它应该包含负图像嵌入。如果未提供,则嵌入将从 ip_adapter_image 输入参数计算。
  • output_type (str, 可选, 默认值为 "pil") — 生成的视频的输出格式。在 torch.TensorPIL.Imagenp.array 之间选择。
  • return_dict (bool, 可选, 默认值为 True) — 是否返回 AnimateDiffPipelineOutput 而不是简单的元组。
  • cross_attention_kwargs (dict, 可选) — 如果指定,则传递给 AttentionProcessor 的 kwargs 字典,如 self.processor 中定义。
  • clip_skip (int, 可选) — 从 CLIP 计算提示嵌入时要跳过的层数。值为 1 表示将使用倒数第二层的输出计算提示嵌入。callback_on_step_end (Callable, 可选) — 在推理过程中每个去噪步骤结束时调用的函数。该函数使用以下参数调用:callback_on_step_end(self: DiffusionPipeline, step: int, timestep: int, callback_kwargs: Dict)callback_kwargs 将包含由 callback_on_step_end_tensor_inputs 指定的所有张量的列表。
  • callback_on_step_end_tensor_inputs (List, 可选) — callback_on_step_end 函数的张量输入列表。列表中指定的张量将作为 callback_kwargs 参数传递。你只能包含管道类 ._callback_tensor_inputs 属性中列出的变量。
  • decode_chunk_size (int, 默认为 16) — 调用 decode_latents 方法时每次解码的帧数。

返回

pipelines.animatediff.pipeline_output.AnimateDiffPipelineOutputtuple

如果 return_dictTrue,则返回 pipelines.animatediff.pipeline_output.AnimateDiffPipelineOutput,否则返回一个 tuple,其中第一个元素是包含生成帧的列表。

管道生成函数的调用函数。

示例

encode_prompt

< >

( prompt device num_images_per_prompt do_classifier_free_guidance negative_prompt = None prompt_embeds: Optional = None negative_prompt_embeds: Optional = None lora_scale: Optional = None clip_skip: Optional = None )

参数

  • prompt (strList[str], 可选) — 要编码的提示 设备 — (torch.device): torch 设备
  • num_images_per_prompt (int) — 每个提示应生成的图像数量
  • do_classifier_free_guidance (bool) — 是否使用分类器免费引导
  • negative_prompt (strList[str], 可选) — 不引导图像生成的提示或提示。如果未定义,则必须传递 negative_prompt_embeds。在不使用引导时忽略(即,如果 guidance_scale 小于 1,则忽略)。
  • prompt_embeds (torch.Tensor, 可选) — 预生成的文本嵌入。可用于轻松调整文本输入,例如 提示加权。如果未提供,则将从 prompt 输入参数生成文本嵌入。
  • negative_prompt_embeds (torch.Tensor, 可选) — 预
  • lora_scale (float, 可选) — 如果加载了 LoRA 层,则将应用于文本编码器所有 LoRA 层的 LoRA 比例。
  • clip_skip (int, 可选) — 从 CLIP 计算提示嵌入时要跳过的层数。值为 1 表示将使用倒数第二层的输出计算提示嵌入。

将提示编码为文本编码器隐藏状态。

AnimateDiffPipelineOutput

class diffusers.pipelines.animatediff.AnimateDiffPipelineOutput

< >

( frames: Union )

参数

  • frames (torch.Tensor, np.ndarray, 或 List[List[PIL.Image.Image]]) — 视频输出列表 - 它可以是嵌套列表,长度为 batch_size, 每个子列表包含降噪后的

AnimateDiff 管道的输出类。

长度为 num_frames 的 PIL 图像序列。它也可以是形状为 (batch_size, num_frames, channels, height, width) 的 NumPy 数组或 Torch 张量。

< > 在 GitHub 上更新