Wan 2.1 文生视频 T2V 和图生视频 I2V SwarmUI 教程,配合 CausVid LoRA 极速体验
社区文章 发布于 2025 年 5 月 19 日
教程链接
https://youtu.be/XNcn845UXdw
教程信息
Wan 2.1 仍然是目前最好的本地 AI 视频生成模型,现在有了 CausVid LoRA,它变得更加惊艳和快速。通过在 SwarmUI 中利用 ComfyUI 的后端能力以及我的自动安装程序来利用 Sage Attention,您只需 8 步即可使用 Wan 2.1 和 CausVid LoRA 快速生成高质量的 AI 视频。
教程链接
- 🔗请点击以下链接下载包含 SwarmUI 安装程序和 AI 模型下载器 Gradio App 的 zip 文件 - 教程中使用的就是这个 ⤵️
- ▶️ SwarmUI 主教程安装方法:https://youtu.be/fTzlQ0tjxj0
- 🔗 请点击以下链接下载包含ComfyUI一键安装程序的zip文件,该安装程序支持Flash Attention、Sage Attention、xFormers、Triton、DeepSpeed、RTX 5000系列 ⤵️
- 🔗 Python, Git, CUDA, C++, FFMPEG, MSVC 安装教程 - ComfyUI 所需 ⤵️
- 🔗 SECourses 官方 Discord 10500+ 会员 ⤵️
- 🔗 Stable Diffusion、FLUX、生成式 AI 教程和资源 GitHub ⤵️
- 🔗 SECourses 官方 Reddit - 保持订阅以获取所有新闻及更多内容 ⤵️
- ▶️ CausVid LoRA 官方仓库:https://github.com/tianweiy/CausVid
视频章节
- 0:00 简介与精彩演示
- 0:23 教程目标:视频生成 (1.2.1), 加速 (CowsWith, Rife)
- 0:35 SwarmUI:安装与更新流程
- 0:57 SwarmUI 下载器:1.2.1 模型与 CowsWith Lora
- 1:48 可选:将模型与 ComfyUI 集成
- 2:12 SwarmUI 启动、配置与 Rife 插值
- 2:38 图生视频:导入预设
- 2:51 图生视频:GGUF 模型选择与显存
- 3:09 图生视频:最佳分辨率与宽高比
- 3:21 图生视频:CowsWith Lora 与 “Fast CowsWith” 预设
- 3:44 图生视频:关键参数(步数、CFG、初始图像)
- 4:04 图生视频:创造力(0)与帧数
- 4:26 显存管理:避免共享显存导致的卡顿
- 4:40 图生视频:Rife x2(双倍帧率)与高级设置
- 4:56 图生视频:修剪帧数与撰写提示词
- 5:24 双 GPU I2V 生成:RTX 5090 vs 3090Ti
- 5:55 I2V 速度、显存与首次结果分析 (RTX 5090: 5.7s/it)
- 6:35 首次 I2V 结果回顾与迭代需求
- 6:52 第二次 I2V 结果:AI 修复缺失部分!
- 7:20 回顾:优化 SwarmUI 的强大功能
- 7:33 文生视频:切换与模型设置
- 8:04 文生视频:应用 T2V 预设
- 8:19 文生视频:关键参数差异
- 8:34 文生视频:设置分辨率与 Rife
- 9:02 文生视频:提示词与确保 LoRA
- 9:17 速度与质量:T-Cash 与 Sage Attention
- 9:30 文生视频:双 GPU 生成启动与设置
- 10:03 文生视频:显存检查与速度预期
- 11:51 文生视频速度分析:5090 (8.4s/it) vs 3090Ti (18.2s/it)
- 12:01 文生视频结果 (576x1008) 回顾:“真的很棒!”
- 12:55 预告:“我的基于扩散的升格器” 与快速预览
- 13:10 升格器功能:分割、逐剪辑提示/升格
- 13:35 升格器功能:自动字幕 (CogVLM2)、比例控制
- 13:45 升格器功能:批量处理与最大帧数控制
- 13:51 升格器:质量目标 (10x+), 优化与想法
- 18:01 升格器:FFmpeg 预设、开发状态与愿景
- 18:13 最终回顾:希望您喜欢并回顾生成的视频
- 18:20 生成视频质量与时间评估:“非常棒!”
- 18:24 最终时间:RTX 3090Ti (170s) vs RTX 5090 (90s)
- 18:32 您的选择:分辨率、帧数、速度与显存平衡
摘要
当前的视频扩散模型在生成质量方面表现出色,但由于双向注意力依赖,在交互式应用中面临挑战。生成单帧需要模型处理整个序列,包括未来帧。我们通过将预训练的双向扩散 Transformer 适配为自回归 Transformer 来解决此限制,使其能够即时生成帧。为了进一步降低延迟,我们将分布匹配蒸馏 (DMD) 扩展到视频,将 50 步扩散模型蒸馏成 4 步生成器。为了实现稳定高质量的蒸馏,我们引入了一种基于教师 ODE 轨迹的学生初始化方案,以及一种非对称蒸馏策略,该策略使用双向教师监督因果学生模型。这种方法有效缓解了自回归生成中的误差累积,即使在短剪辑上训练也能实现长时间视频合成。我们的模型在 VBench-Long 基准测试中取得了 84.27 的总分,超越了所有之前的视频生成模型。得益于 KV 缓存,我们的模型能够在单张 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。