SwarmUI 的 Teacache 和 Wan 2.1 集成教程

社区文章发布于 2025 年 5 月 22 日

Furkan Gözükara

MonsterMMORPG

https://youtu.be/gFMUChHgXYk

📋 概述

🔗 重要资源
下载链接

前置教程

社区资源

⏱️ 教程时间线

挑战：扩散的迭代性质

TeaCache 工作原理：秘密武器

TeaCache 的主要优势

支持的模型
文本转视频 (T2V)

图像转视频 (I2V)

视频转视频 (V2V)

文本转图像 (T2I)

文本转音频 (T2A)

🎓 关于作者

📞 联系与学习

https://youtu.be/gFMUChHgXYk

📋 概述

本教程演示了如何使用 Teacache 在 SwarmUI 中显著加速 AI 生成速度，后台使用 ComfyUI。了解如何正确配置和使用 Wan 2.1 文本转图像和文本转视频模型，并使用优化预设以获得最大性能。

🔗 重要资源

下载链接

SwarmUI 安装程序和 AI 模型下载器 - 教程中使用的完整软件包
高级 ComfyUI 一键安装程序 - 包括 Flash Attention、Sage Attention、xFormers、Triton、DeepSpeed、RTX 5000 系列支持

前置教程

SwarmUI 主安装教程
快速 Wan 2.1 教程
Python、Git、CUDA、C++、FFMPEG、MSVC 安装 - ComfyUI 所需

社区资源

SECourses Discord - 10,500+ 会员
GitHub 仓库 - Stable Diffusion、FLUX、生成式 AI 教程
SECourses Reddit - 最新新闻和更新

⏱️ 教程时间线

时间	主题
0:00	介绍：Swarm UI 的 Teacache 和 Wan 2.1 预设
0:35	先决条件：以前的教程和更新 Swarm UI 文件
1:09	运行 Swarm UI 更新脚本
1:21	将新预设导入 Swarm UI
1:46	启用高级选项并找到 Teacache 安装程序
1:57	了解 Teacache：更快的生成，最小的质量损失
2:14	通过 CMD 监控 Teacache 安装过程
2:32	Teacache 已安装：准备图像转视频生成
2:43	应用图像转视频预设和初始配置
3:04	选择初始图像和基础模型（例如 Wan 2.1 480p）
3:25	如何通过 Swarm UI 下载器下载模型
3:52	选择特定的图像转视频模型（FP16/GGUF Q8）
4:04	根据模型元数据设置正确的分辨率和纵横比
4:25	关键图像转视频设置：模型覆盖和视频帧数
4:42	优化视频步数 (30) 和 CFG (6) 以实现 Teacache
5:01	配置 Teacache 模式 (All) 和阈值 (15%)
5:08	设置帧插值 (2x for 32 FPS) 和持续时间
5:22	开始图像转视频：最新 Swarm UI 的重要性
5:41	生成开始：Teacache 和跳步解释
6:05	观察 Teacache 的运行：步数跳跃及其工作原理
6:23	利用 Sage Attention 和 ComfyUI 的自动化设置
6:38	Teacache 性能提升：示例速度提升 (IT/s)
6:51	了解 ComfyUI 块交换和监控 GPU 使用情况
7:18	图像转视频生成完成：总时间和输出
7:32	访问生成的视频和输出格式选项 (H.265)
7:55	文本转视频：应用预设和调整核心设置
8:13	配置文本转视频参数：步数 (30)、FPS、格式
8:27	选择文本转视频模型 (GGUF Q8) 并设置分辨率
8:45	高级设置：UniPC 采样器、Sigma Shift (8)、CFG 影响
9:03	为文本转视频启用 Teacache (15%)
9:15	开始高清文本转视频生成 (GGUF Q8 模型)
9:36	了解性能：高清分辨率和帧数影响
9:54	文本转视频完成：耗时和 Teacache 加速
10:06	下载并查看全高清文本转视频结果
10:19	比较提示效果：图像转视频与文本转视频
10:30	结论：未来预设和 Swarm UI 与 ComfyUI 的强大功能

TeaCache：为扩散模型加速推理

扩散模型彻底改变了图像、视频和音频生成，产生了令人惊叹的逼真和创意输出。然而，其迭代去噪过程通常涉及数百个步骤，使得推理速度非常慢。为了解决这一瓶颈，TeaCache（时间步嵌入感知缓存）作为一种创新的、无需训练的方法出现，可在不显著降低输出质量的情况下显著加速这些模型。

挑战：扩散的迭代性质

扩散模型的核心工作原理是：通过一系列“时间步”逐步从初始随机状态中去除噪声。每个时间步都涉及一个计算密集型的过程，需要通过大型神经网络（通常是 U-Net 或 Transformer）。大量的这些步骤是导致生成时间过长的主要原因，阻碍了快速原型设计和实时应用。

TeaCache 工作原理：秘密武器

TeaCache 的精妙之处在于它观察到相邻时间步（尤其是在去噪的后期阶段）的计算通常会产生高度相似的中间结果或“残差”（模型输出与其输入之间的差异）。TeaCache 不会在每个步骤都重新计算所有内容，而是智能地决定何时重用缓存信息。

“时间步嵌入感知”部分至关重要。以下是其机制的细分：

时间步嵌入作为代理
扩散模型使用时间步嵌入——当前去噪步骤的向量表示——来指导模型的行为。TeaCache 假设连续时间步嵌入之间的差异可以作为模型内部状态（及其输出）将发生多少变化的良好指标。
预测相似性
在每个去噪步骤中，TeaCache 将当前时间步嵌入与之前计算的步骤的嵌入进行比较。
重新缩放和阈值化
然后，使用模型特定的多项式函数（由各种模型的 TeaCache 实现中的系数定义）重新缩放嵌入中的原始差异。这种重新缩放的差异表示模型潜在输出之间的估计“相对 L1 距离”。
缓存决策
将此估计距离与用户定义的 rel_l1_thresh（相对 L1 阈值）进行比较。
- 如果距离低于阈值
  这意味着当前步骤的模型输出可能与前一个步骤非常相似。TeaCache 然后跳过当前步骤的完整、昂贵的计算。相反，它重用之前计算的残差（模型输出与上次完全计算步骤的输入之间的差异），并将其应用于当前步骤的输入。
- 如果距离超过阈值（或如果是第一步/最后一步）
  TeaCache 执行完整的计算，用新的残差更新其缓存，并重置其累积距离计数器。
累积距离
系统会保留一个 accumulated_rel_l1_distance。如果连续跳过几个步骤，此累积距离会增加。一旦超过 rel_l1_thresh，就会触发完整的计算。

这种自适应缓存策略允许 TeaCache 跳过冗余计算，同时确保模型在预期发生显著变化时执行全面更新，从而保持质量。

TeaCache 的主要优势

无需训练
TeaCache 最显著的优势之一是它不需要模型重新训练或微调。它可以“在现有预训练扩散模型之上”应用。
显著加速
如其仓库所示，TeaCache 可以显著加快推理速度，通常可达到 1.5 倍到 2 倍以上，具体取决于模型和所选阈值。
广泛的模型兼容性
虽然最初专注于视频扩散模型，但 TeaCache 在图像和音频扩散模型上也显示出其有效性。
用户可控的权衡
rel_l1_thresh 参数为用户提供了直接平衡推理速度和输出质量的方法。更高的阈值会导致更积极的缓存和更快的速度，但可能会引入轻微的质量下降。

支持的模型

TeaCache 具有令人印象深刻的多功能性，并为不断增长的流行扩散模型列表提供了专门的实现和支持：

文本转视频 (T2V)：

Wan2.1
Cosmos
CogVideoX1.5
LTX-Video
Mochi
HunyuanVideo
CogVideoX
Open-Sora
Open-Sora-Plan
Latte
EasyAnimate (通过社区)
FramePack (通过社区)
FastVideo (通过社区)

图像转视频 (I2V)：

Wan2.1
Cosmos
CogVideoX1.5
ConsisID
EasyAnimate (通过社区)
Ruyi-Models (通过社区)

视频转视频 (V2V)：

EasyAnimate (通过社区)

文本转图像 (T2I)：

FLUX
Lumina-T2X

文本转音频 (T2A)：

TangoFlux

🎓 关于作者

Furkan Gözükara 博士 - 软件工程助理教授

🎓 计算机工程博士
📺 37,000+ YouTube 订阅者
🎯 AI、Stable Diffusion 和生成模型方面的专家级教程

📞 联系与学习

YouTube：@SECourses
领英：Furkan Gözükara 博士
推特：@GozukaraFurkan
Mastodon：@furkangozukara

本教程提供了在 SwarmUI 中实现 Teacache 加速的全面指导，能够以最小的质量损失实现更快的 AI 视频和图像生成。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论