SwarmUI 的 Teacache 和 Wan 2.1 集成教程
https://youtu.be/gFMUChHgXYk
📋 概述
本教程演示了如何使用 Teacache 在 SwarmUI 中显著加速 AI 生成速度,后台使用 ComfyUI。了解如何正确配置和使用 Wan 2.1 文本转图像和文本转视频模型,并使用优化预设以获得最大性能。
🔗 重要资源
下载链接
- SwarmUI 安装程序和 AI 模型下载器 - 教程中使用的完整软件包
- 高级 ComfyUI 一键安装程序 - 包括 Flash Attention、Sage Attention、xFormers、Triton、DeepSpeed、RTX 5000 系列支持
前置教程
- SwarmUI 主安装教程
- 快速 Wan 2.1 教程
- Python、Git、CUDA、C++、FFMPEG、MSVC 安装 - ComfyUI 所需
社区资源
- SECourses Discord - 10,500+ 会员
- GitHub 仓库 - Stable Diffusion、FLUX、生成式 AI 教程
- SECourses Reddit - 最新新闻和更新
⏱️ 教程时间线
时间 | 主题 |
---|---|
0:00 | 介绍:Swarm UI 的 Teacache 和 Wan 2.1 预设 |
0:35 | 先决条件:以前的教程和更新 Swarm UI 文件 |
1:09 | 运行 Swarm UI 更新脚本 |
1:21 | 将新预设导入 Swarm UI |
1:46 | 启用高级选项并找到 Teacache 安装程序 |
1:57 | 了解 Teacache:更快的生成,最小的质量损失 |
2:14 | 通过 CMD 监控 Teacache 安装过程 |
2:32 | Teacache 已安装:准备图像转视频生成 |
2:43 | 应用图像转视频预设和初始配置 |
3:04 | 选择初始图像和基础模型(例如 Wan 2.1 480p) |
3:25 | 如何通过 Swarm UI 下载器下载模型 |
3:52 | 选择特定的图像转视频模型(FP16/GGUF Q8) |
4:04 | 根据模型元数据设置正确的分辨率和纵横比 |
4:25 | 关键图像转视频设置:模型覆盖和视频帧数 |
4:42 | 优化视频步数 (30) 和 CFG (6) 以实现 Teacache |
5:01 | 配置 Teacache 模式 (All) 和阈值 (15%) |
5:08 | 设置帧插值 (2x for 32 FPS) 和持续时间 |
5:22 | 开始图像转视频:最新 Swarm UI 的重要性 |
5:41 | 生成开始:Teacache 和跳步解释 |
6:05 | 观察 Teacache 的运行:步数跳跃及其工作原理 |
6:23 | 利用 Sage Attention 和 ComfyUI 的自动化设置 |
6:38 | Teacache 性能提升:示例速度提升 (IT/s) |
6:51 | 了解 ComfyUI 块交换和监控 GPU 使用情况 |
7:18 | 图像转视频生成完成:总时间和输出 |
7:32 | 访问生成的视频和输出格式选项 (H.265) |
7:55 | 文本转视频:应用预设和调整核心设置 |
8:13 | 配置文本转视频参数:步数 (30)、FPS、格式 |
8:27 | 选择文本转视频模型 (GGUF Q8) 并设置分辨率 |
8:45 | 高级设置:UniPC 采样器、Sigma Shift (8)、CFG 影响 |
9:03 | 为文本转视频启用 Teacache (15%) |
9:15 | 开始高清文本转视频生成 (GGUF Q8 模型) |
9:36 | 了解性能:高清分辨率和帧数影响 |
9:54 | 文本转视频完成:耗时和 Teacache 加速 |
10:06 | 下载并查看全高清文本转视频结果 |
10:19 | 比较提示效果:图像转视频与文本转视频 |
10:30 | 结论:未来预设和 Swarm UI 与 ComfyUI 的强大功能 |
TeaCache:为扩散模型加速推理
扩散模型彻底改变了图像、视频和音频生成,产生了令人惊叹的逼真和创意输出。然而,其迭代去噪过程通常涉及数百个步骤,使得推理速度非常慢。为了解决这一瓶颈,TeaCache(时间步嵌入感知缓存)作为一种创新的、无需训练的方法出现,可在不显著降低输出质量的情况下显著加速这些模型。
挑战:扩散的迭代性质
扩散模型的核心工作原理是:通过一系列“时间步”逐步从初始随机状态中去除噪声。每个时间步都涉及一个计算密集型的过程,需要通过大型神经网络(通常是 U-Net 或 Transformer)。大量的这些步骤是导致生成时间过长的主要原因,阻碍了快速原型设计和实时应用。
TeaCache 工作原理:秘密武器
TeaCache 的精妙之处在于它观察到相邻时间步(尤其是在去噪的后期阶段)的计算通常会产生高度相似的中间结果或“残差”(模型输出与其输入之间的差异)。TeaCache 不会在每个步骤都重新计算所有内容,而是智能地决定何时重用缓存信息。
“时间步嵌入感知”部分至关重要。以下是其机制的细分:
时间步嵌入作为代理
扩散模型使用时间步嵌入——当前去噪步骤的向量表示——来指导模型的行为。TeaCache 假设连续时间步嵌入之间的差异可以作为模型内部状态(及其输出)将发生多少变化的良好指标。预测相似性
在每个去噪步骤中,TeaCache 将当前时间步嵌入与之前计算的步骤的嵌入进行比较。重新缩放和阈值化
然后,使用模型特定的多项式函数(由各种模型的 TeaCache 实现中的系数定义)重新缩放嵌入中的原始差异。这种重新缩放的差异表示模型潜在输出之间的估计“相对 L1 距离”。缓存决策
将此估计距离与用户定义的rel_l1_thresh
(相对 L1 阈值)进行比较。如果距离低于阈值
这意味着当前步骤的模型输出可能与前一个步骤非常相似。TeaCache 然后跳过当前步骤的完整、昂贵的计算。相反,它重用之前计算的残差(模型输出与上次完全计算步骤的输入之间的差异),并将其应用于当前步骤的输入。如果距离超过阈值(或如果是第一步/最后一步)
TeaCache 执行完整的计算,用新的残差更新其缓存,并重置其累积距离计数器。
累积距离
系统会保留一个accumulated_rel_l1_distance
。如果连续跳过几个步骤,此累积距离会增加。一旦超过rel_l1_thresh
,就会触发完整的计算。
这种自适应缓存策略允许 TeaCache 跳过冗余计算,同时确保模型在预期发生显著变化时执行全面更新,从而保持质量。
TeaCache 的主要优势
无需训练
TeaCache 最显著的优势之一是它不需要模型重新训练或微调。它可以“在现有预训练扩散模型之上”应用。显著加速
如其仓库所示,TeaCache 可以显著加快推理速度,通常可达到 1.5 倍到 2 倍以上,具体取决于模型和所选阈值。广泛的模型兼容性
虽然最初专注于视频扩散模型,但 TeaCache 在图像和音频扩散模型上也显示出其有效性。用户可控的权衡
rel_l1_thresh
参数为用户提供了直接平衡推理速度和输出质量的方法。更高的阈值会导致更积极的缓存和更快的速度,但可能会引入轻微的质量下降。
支持的模型
TeaCache 具有令人印象深刻的多功能性,并为不断增长的流行扩散模型列表提供了专门的实现和支持:
文本转视频 (T2V):
- Wan2.1
- Cosmos
- CogVideoX1.5
- LTX-Video
- Mochi
- HunyuanVideo
- CogVideoX
- Open-Sora
- Open-Sora-Plan
- Latte
- EasyAnimate (通过社区)
- FramePack (通过社区)
- FastVideo (通过社区)
图像转视频 (I2V):
- Wan2.1
- Cosmos
- CogVideoX1.5
- ConsisID
- EasyAnimate (通过社区)
- Ruyi-Models (通过社区)
视频转视频 (V2V):
- EasyAnimate (通过社区)
文本转图像 (T2I):
- FLUX
- Lumina-T2X
文本转音频 (T2A):
- TangoFlux
🎓 关于作者
Furkan Gözükara 博士 - 软件工程助理教授
- 🎓 计算机工程博士
- 📺 37,000+ YouTube 订阅者
- 🎯 AI、Stable Diffusion 和生成模型方面的专家级教程
📞 联系与学习
- YouTube:@SECourses
- 领英:Furkan Gözükara 博士
- 推特:@GozukaraFurkan
- Mastodon:@furkangozukara
本教程提供了在 SwarmUI 中实现 Teacache 加速的全面指导,能够以最小的质量损失实现更快的 AI 视频和图像生成。