Diffusers 文档

CogVideoX

Diffusers

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

CogVideoX

CogVideoX：带有专家 Transformer 的文本到视频扩散模型来自清华大学 & ZhipuAI，作者：Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang。

以下是论文摘要

我们介绍了 CogVideoX，这是一个大型扩散 Transformer 模型，旨在根据文本提示生成视频。为了高效地建模视频数据，我们建议利用 3D 变分自编码器 (VAE) 来压缩视频的空间和时间维度。为了提高文本-视频对齐效果，我们提出了一个专家 Transformer，并结合专家自适应 LayerNorm，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX 擅长生成连贯、时长较长且具有显著运动特征的视频。此外，我们还开发了一个有效的文本-视频数据处理流程，其中包括各种数据预处理策略和视频字幕方法。这显著地帮助提升了 CogVideoX 的性能，提高了生成质量和语义对齐度。结果表明，CogVideoX 在多项机器指标和人工评估中均展示了最先进的性能。CogVideoX-2B 的模型权重已公开在 https://github.com/THUDM/CogVideo 上提供。

请务必查看调度器（Schedulers）指南，了解如何在调度器速度和质量之间进行权衡，并查看跨管道重用组件（reuse components across pipelines）部分，了解如何有效地将相同的组件加载到多个管道中。

此管道由 zRzRzRzRzRzRzR 贡献。原始代码库可以在这里找到。原始权重可以在 hf.co/THUDM 下找到。

有三个官方 CogVideoX 检查点（checkpoints）用于文本到视频（text-to-video）和视频到视频（video-to-video）。

检查点（checkpoints）	推荐的推理数据类型（dtype）
`THUDM/CogVideoX-2b`	torch.float16
`THUDM/CogVideoX-5b`	torch.bfloat16
`THUDM/CogVideoX1.5-5b`	torch.bfloat16

有两个官方 CogVideoX 检查点可用于图像到视频（image-to-video）。

检查点（checkpoints）	推荐的推理数据类型（dtype）
`THUDM/CogVideoX-5b-I2V`	torch.bfloat16
`THUDM/CogVideoX-1.5-5b-I2V`	torch.bfloat16

对于 CogVideoX 1.5 系列

文本到视频 (T2V) 在 1360x768 的分辨率下效果最佳，因为它是在该特定分辨率下训练的。
图像到视频 (I2V) 适用于多种分辨率。宽度可以在 768 到 1360 之间变化，但高度必须为 768。高度/宽度必须能被 16 整除。
T2V 和 I2V 模型都支持生成 81 帧和 161 帧的视频，并且在此值下效果最佳。建议以 16 FPS（帧每秒）导出视频。

有两个官方 CogVideoX 检查点支持姿势可控生成（由 Alibaba-PAI 团队提供）。

检查点（checkpoints）	推荐的推理数据类型（dtype）
`alibaba-pai/CogVideoX-Fun-V1.1-2b-Pose`	torch.bfloat16
`alibaba-pai/CogVideoX-Fun-V1.1-5b-Pose`	torch.bfloat16

推理（Inference）

使用 torch.compile 来减少推理延迟。

首先，加载管道（pipeline）

import torch
from diffusers import CogVideoXPipeline, CogVideoXImageToVideoPipeline
from diffusers.utils import export_to_video,load_image
pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-5b").to("cuda") # or "THUDM/CogVideoX-2b"

如果您正在使用图像到视频（image-to-video）管道，请按如下方式加载它

pipe = CogVideoXImageToVideoPipeline.from_pretrained("THUDM/CogVideoX-5b-I2V").to("cuda")

然后将管道的 transformer 组件的内存布局更改为 torch.channels_last

pipe.transformer.to(memory_format=torch.channels_last)

编译组件并运行推理

pipe.transformer = torch.compile(pipeline.transformer, mode="max-autotune", fullgraph=True)

# CogVideoX works well with long and well-described prompts
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."
video = pipe(prompt=prompt, guidance_scale=6, num_inference_steps=50).frames[0]

在 80GB A100 机器上的 T2V 基准测试结果如下

Without torch.compile(): Average inference time: 96.89 seconds.
With torch.compile(): Average inference time: 76.27 seconds.

内存优化（Memory optimization）

CogVideoX-2b 需要大约 19 GB 的 GPU 内存来解码 49 帧（在 8 FPS 下为 6 秒视频），输出分辨率为 720x480 (宽 x 高)，这使得它无法在消费级 GPU 或免费的 T4 Colab 上运行。以下内存优化可以用来减少内存占用。如需复现，您可以参考此脚本。

pipe.enable_model_cpu_offload():
- 在不启用 CPU 卸载的情况下，内存使用量为 33 GB
- 在启用 CPU 卸载的情况下，内存使用量为 19 GB
pipe.enable_sequential_cpu_offload():
- 类似于 enable_model_cpu_offload，但可以显著减少内存使用量，但会牺牲推理速度
- 启用后，内存使用量低于 4 GB
pipe.vae.enable_tiling():
- 在启用 CPU 卸载和 tiling 的情况下，内存使用量为 11 GB
pipe.vae.enable_slicing()

量化推理（Quantized inference）

可以使用 torchao 和 optimum-quanto 来量化文本编码器（text encoder）、Transformer 和 VAE 模块，以降低内存需求。这使得在免费的 T4 Colab 或更低 VRAM 的 GPU 上运行模型成为可能！

还值得注意的是，torchao 量化与 torch.compile 完全兼容，这可以大大提高推理速度。此外，模型可以序列化并以量化数据类型存储，以使用 torchao 节省磁盘空间。在下面的 gists 中查找示例和基准测试。

Diffusers

CogVideoX

推理（Inference）

内存优化（Memory optimization）

量化推理（Quantized inference）

CogVideoXPipeline

class diffusers.CogVideoXPipeline

__call__

encode_prompt

fuse_qkv_projections

unfuse_qkv_projections

CogVideoXImageToVideoPipeline

class diffusers.CogVideoXImageToVideoPipeline

__call__

encode_prompt

fuse_qkv_projections

unfuse_qkv_projections

CogVideoXVideoToVideoPipeline

class diffusers.CogVideoXVideoToVideoPipeline

__call__

encode_prompt

fuse_qkv_projections

unfuse_qkv_projections

CogVideoXFunControlPipeline

class diffusers.CogVideoXFunControlPipeline

__call__

encode_prompt

fuse_qkv_projections

unfuse_qkv_projections

CogVideoXPipelineOutput

class diffusers.pipelines.cogvideo.pipeline_output.CogVideoXPipelineOutput

call

call

call

call