Wan 2.1 文生视频 T2V 和图生视频 I2V SwarmUI 教程,配合 CausVid LoRA 极速体验

社区文章 发布于 2025 年 5 月 19 日

教程链接

https://youtu.be/XNcn845UXdw

教程信息

Wan 2.1 仍然是目前最好的本地 AI 视频生成模型,现在有了 CausVid LoRA,它变得更加惊艳和快速。通过在 SwarmUI 中利用 ComfyUI 的后端能力以及我的自动安装程序来利用 Sage Attention,您只需 8 步即可使用 Wan 2.1 和 CausVid LoRA 快速生成高质量的 AI 视频。

教程链接

视频章节

  • 0:00 简介与精彩演示
  • 0:23 教程目标:视频生成 (1.2.1), 加速 (CowsWith, Rife)
  • 0:35 SwarmUI:安装与更新流程
  • 0:57 SwarmUI 下载器:1.2.1 模型与 CowsWith Lora
  • 1:48 可选:将模型与 ComfyUI 集成
  • 2:12 SwarmUI 启动、配置与 Rife 插值
  • 2:38 图生视频:导入预设
  • 2:51 图生视频:GGUF 模型选择与显存
  • 3:09 图生视频:最佳分辨率与宽高比
  • 3:21 图生视频:CowsWith Lora 与 “Fast CowsWith” 预设
  • 3:44 图生视频:关键参数(步数、CFG、初始图像)
  • 4:04 图生视频:创造力(0)与帧数
  • 4:26 显存管理:避免共享显存导致的卡顿
  • 4:40 图生视频:Rife x2(双倍帧率)与高级设置
  • 4:56 图生视频:修剪帧数与撰写提示词
  • 5:24 双 GPU I2V 生成:RTX 5090 vs 3090Ti
  • 5:55 I2V 速度、显存与首次结果分析 (RTX 5090: 5.7s/it)
  • 6:35 首次 I2V 结果回顾与迭代需求
  • 6:52 第二次 I2V 结果:AI 修复缺失部分!
  • 7:20 回顾:优化 SwarmUI 的强大功能
  • 7:33 文生视频:切换与模型设置
  • 8:04 文生视频:应用 T2V 预设
  • 8:19 文生视频:关键参数差异
  • 8:34 文生视频:设置分辨率与 Rife
  • 9:02 文生视频:提示词与确保 LoRA
  • 9:17 速度与质量:T-Cash 与 Sage Attention
  • 9:30 文生视频:双 GPU 生成启动与设置
  • 10:03 文生视频:显存检查与速度预期
  • 11:51 文生视频速度分析:5090 (8.4s/it) vs 3090Ti (18.2s/it)
  • 12:01 文生视频结果 (576x1008) 回顾:“真的很棒!”
  • 12:55 预告:“我的基于扩散的升格器” 与快速预览
  • 13:10 升格器功能:分割、逐剪辑提示/升格
  • 13:35 升格器功能:自动字幕 (CogVLM2)、比例控制
  • 13:45 升格器功能:批量处理与最大帧数控制
  • 13:51 升格器:质量目标 (10x+), 优化与想法
  • 18:01 升格器:FFmpeg 预设、开发状态与愿景
  • 18:13 最终回顾:希望您喜欢并回顾生成的视频
  • 18:20 生成视频质量与时间评估:“非常棒!”
  • 18:24 最终时间:RTX 3090Ti (170s) vs RTX 5090 (90s)
  • 18:32 您的选择:分辨率、帧数、速度与显存平衡

摘要

当前的视频扩散模型在生成质量方面表现出色,但由于双向注意力依赖,在交互式应用中面临挑战。生成单帧需要模型处理整个序列,包括未来帧。我们通过将预训练的双向扩散 Transformer 适配为自回归 Transformer 来解决此限制,使其能够即时生成帧。为了进一步降低延迟,我们将分布匹配蒸馏 (DMD) 扩展到视频,将 50 步扩散模型蒸馏成 4 步生成器。为了实现稳定高质量的蒸馏,我们引入了一种基于教师 ODE 轨迹的学生初始化方案,以及一种非对称蒸馏策略,该策略使用双向教师监督因果学生模型。这种方法有效缓解了自回归生成中的误差累积,即使在短剪辑上训练也能实现长时间视频合成。我们的模型在 VBench-Long 基准测试中取得了 84.27 的总分,超越了所有之前的视频生成模型。得益于 KV 缓存,我们的模型能够在单张 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。

社区

注册登录 发表评论