稳定视频扩散
稳定视频扩散 (SVD) 是一种强大的图像到视频生成模型,可以根据输入图像生成 2-4 秒的高分辨率 (576x1024) 视频。
本指南将向您展示如何使用 SVD 从图像生成短视频。
在开始之前,请确保已安装以下库
# Colab에서 필요한 라이브러리를 설치하기 위해 주석을 제외하세요
!pip install -q -U diffusers transformers accelerate
该模型有两个变体,SVD 和 SVD-XT。SVD 检查点经过训练可以生成 14 帧,而 SVD-XT 检查点则进一步微调以生成 25 帧。
在本指南中,您将使用 SVD-XT 检查点。
import torch
from diffusers import StableVideoDiffusionPipeline
from diffusers.utils import load_image, export_to_video
pipe = StableVideoDiffusionPipeline.from_pretrained(
"stabilityai/stable-video-diffusion-img2vid-xt", torch_dtype=torch.float16, variant="fp16"
)
pipe.enable_model_cpu_offload()
# Load the conditioning image
image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/svd/rocket.png")
image = image.resize((1024, 576))
generator = torch.manual_seed(42)
frames = pipe(image, decode_chunk_size=8, generator=generator).frames[0]
export_to_video(frames, "generated.mp4", fps=7)
torch.compile
您可以通过编译 UNet 来获得 20-25% 的速度提升,但代价是内存略有增加。
- pipe.enable_model_cpu_offload()
+ pipe.to("cuda")
+ pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
减少内存使用
视频生成非常占用内存,因为您本质上是在一次生成num_frames
,类似于具有高批量大小的文本到图像生成。为了减少内存需求,有多种选择可以权衡推理速度以降低内存需求
- 启用模型卸载:管道中的每个组件在不再需要时都会卸载到 CPU。
- 启用前馈分块:前馈层在循环中运行,而不是以巨大的批量大小运行单个前馈。
- 减少
decode_chunk_size
:VAE 以块的形式解码帧,而不是将它们全部一起解码。设置decode_chunk_size=1
一次解码一帧并使用最少的内存(我们建议根据您的 GPU 内存调整此值),但视频可能会出现一些闪烁。
- pipe.enable_model_cpu_offload()
- frames = pipe(image, decode_chunk_size=8, generator=generator).frames[0]
+ pipe.enable_model_cpu_offload()
+ pipe.unet.enable_forward_chunking()
+ frames = pipe(image, decode_chunk_size=2, generator=generator, num_frames=25).frames[0]
将所有这些技巧结合使用应该可以将内存需求降低到低于 8GB VRAM。
微调
除了条件图像之外,稳定扩散视频还接受微调,这可以更好地控制生成的视频
fps
:生成视频的帧率。motion_bucket_id
:要用于生成视频的动作桶 ID。这可用于控制生成视频的动作。增加动作桶 ID 会增加生成视频的动作。noise_aug_strength
:添加到条件图像中的噪声量。值越高,视频与条件图像的相似度越低。增加此值也会增加生成视频的动作。
例如,要生成动作更多的视频,请使用motion_bucket_id
和noise_aug_strength
微调参数
import torch
from diffusers import StableVideoDiffusionPipeline
from diffusers.utils import load_image, export_to_video
pipe = StableVideoDiffusionPipeline.from_pretrained(
"stabilityai/stable-video-diffusion-img2vid-xt", torch_dtype=torch.float16, variant="fp16"
)
pipe.enable_model_cpu_offload()
# Load the conditioning image
image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/svd/rocket.png")
image = image.resize((1024, 576))
generator = torch.manual_seed(42)
frames = pipe(image, decode_chunk_size=8, generator=generator, motion_bucket_id=180, noise_aug_strength=0.1).frames[0]
export_to_video(frames, "generated.mp4", fps=7)