Wan 2.1 文生视频 T2V 和图生视频 I2V SwarmUI 教程，配合 CausVid LoRA 极速体验

社区文章发布于 2025 年 5 月 19 日

教程链接

教程信息

Wan 2.1 仍然是目前最好的本地 AI 视频生成模型，现在有了 CausVid LoRA，它变得更加惊艳和快速。通过在 SwarmUI 中利用 ComfyUI 的后端能力以及我的自动安装程序来利用 Sage Attention，您只需 8 步即可使用 Wan 2.1 和 CausVid LoRA 快速生成高质量的 AI 视频。

教程链接

🔗请点击以下链接下载包含 SwarmUI 安装程序和 AI 模型下载器 Gradio App 的 zip 文件 - 教程中使用的就是这个 ⤵️
- ▶️ https://www.patreon.com/posts/SwarmUI-Installer-AI-Videos-Downloader-114517862
▶️ SwarmUI 主教程安装方法：https://youtu.be/fTzlQ0tjxj0
🔗 请点击以下链接下载包含ComfyUI一键安装程序的zip文件，该安装程序支持Flash Attention、Sage Attention、xFormers、Triton、DeepSpeed、RTX 5000系列 ⤵️
- ▶️ https://www.patreon.com/posts/Advanced-ComfyUI-1-Click-Installer-105023709
🔗 Python, Git, CUDA, C++, FFMPEG, MSVC 安装教程 - ComfyUI 所需 ⤵️
- ▶️ https://youtu.be/DrhUHnYfwC0
🔗 SECourses 官方 Discord 10500+ 会员 ⤵️
- ▶️ https://discord.com/servers/software-engineering-courses-secourses-772774097734074388
🔗 Stable Diffusion、FLUX、生成式 AI 教程和资源 GitHub ⤵️
- ▶️ https://github.com/FurkanGozukara/Stable-Diffusion
🔗 SECourses 官方 Reddit - 保持订阅以获取所有新闻及更多内容 ⤵️
- ▶️ https://www.reddit.com/r/SECourses/
▶️ CausVid LoRA 官方仓库：https://github.com/tianweiy/CausVid

视频章节

0:00 简介与精彩演示
0:23 教程目标：视频生成 (1.2.1), 加速 (CowsWith, Rife)
0:35 SwarmUI：安装与更新流程
0:57 SwarmUI 下载器：1.2.1 模型与 CowsWith Lora
1:48 可选：将模型与 ComfyUI 集成
2:12 SwarmUI 启动、配置与 Rife 插值
2:38 图生视频：导入预设
2:51 图生视频：GGUF 模型选择与显存
3:09 图生视频：最佳分辨率与宽高比
3:21 图生视频：CowsWith Lora 与 “Fast CowsWith” 预设
3:44 图生视频：关键参数（步数、CFG、初始图像）
4:04 图生视频：创造力（0）与帧数
4:26 显存管理：避免共享显存导致的卡顿
4:40 图生视频：Rife x2（双倍帧率）与高级设置
4:56 图生视频：修剪帧数与撰写提示词
5:24 双 GPU I2V 生成：RTX 5090 vs 3090Ti
5:55 I2V 速度、显存与首次结果分析 (RTX 5090: 5.7s/it)
6:35 首次 I2V 结果回顾与迭代需求
6:52 第二次 I2V 结果：AI 修复缺失部分！
7:20 回顾：优化 SwarmUI 的强大功能
7:33 文生视频：切换与模型设置
8:04 文生视频：应用 T2V 预设
8:19 文生视频：关键参数差异
8:34 文生视频：设置分辨率与 Rife
9:02 文生视频：提示词与确保 LoRA
9:17 速度与质量：T-Cash 与 Sage Attention
9:30 文生视频：双 GPU 生成启动与设置
10:03 文生视频：显存检查与速度预期
11:51 文生视频速度分析：5090 (8.4s/it) vs 3090Ti (18.2s/it)
12:01 文生视频结果 (576x1008) 回顾：“真的很棒！”
12:55 预告：“我的基于扩散的升格器” 与快速预览
13:10 升格器功能：分割、逐剪辑提示/升格
13:35 升格器功能：自动字幕 (CogVLM2)、比例控制
13:45 升格器功能：批量处理与最大帧数控制
13:51 升格器：质量目标 (10x+), 优化与想法
18:01 升格器：FFmpeg 预设、开发状态与愿景
18:13 最终回顾：希望您喜欢并回顾生成的视频
18:20 生成视频质量与时间评估：“非常棒！”
18:24 最终时间：RTX 3090Ti (170s) vs RTX 5090 (90s)
18:32 您的选择：分辨率、帧数、速度与显存平衡

摘要

当前的视频扩散模型在生成质量方面表现出色，但由于双向注意力依赖，在交互式应用中面临挑战。生成单帧需要模型处理整个序列，包括未来帧。我们通过将预训练的双向扩散 Transformer 适配为自回归 Transformer 来解决此限制，使其能够即时生成帧。为了进一步降低延迟，我们将分布匹配蒸馏 (DMD) 扩展到视频，将 50 步扩散模型蒸馏成 4 步生成器。为了实现稳定高质量的蒸馏，我们引入了一种基于教师 ODE 轨迹的学生初始化方案，以及一种非对称蒸馏策略，该策略使用双向教师监督因果学生模型。这种方法有效缓解了自回归生成中的误差累积，即使在短剪辑上训练也能实现长时间视频合成。我们的模型在 VBench-Long 基准测试中取得了 84.27 的总分，超越了所有之前的视频生成模型。得益于 KV 缓存，我们的模型能够在单张 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论