SwarmUI 的 Teacache 和 Wan 2.1 集成教程

社区文章 发布于 2025 年 5 月 22 日

https://youtu.be/gFMUChHgXYk

YouTube Video

📋 概述

本教程演示了如何使用 Teacache 在 SwarmUI 中显著加速 AI 生成速度,后台使用 ComfyUI。了解如何正确配置和使用 Wan 2.1 文本转图像和文本转视频模型,并使用优化预设以获得最大性能。

🔗 重要资源

下载链接

前置教程

社区资源

⏱️ 教程时间线

时间 主题
0:00 介绍:Swarm UI 的 Teacache 和 Wan 2.1 预设
0:35 先决条件:以前的教程和更新 Swarm UI 文件
1:09 运行 Swarm UI 更新脚本
1:21 将新预设导入 Swarm UI
1:46 启用高级选项并找到 Teacache 安装程序
1:57 了解 Teacache:更快的生成,最小的质量损失
2:14 通过 CMD 监控 Teacache 安装过程
2:32 Teacache 已安装:准备图像转视频生成
2:43 应用图像转视频预设和初始配置
3:04 选择初始图像和基础模型(例如 Wan 2.1 480p)
3:25 如何通过 Swarm UI 下载器下载模型
3:52 选择特定的图像转视频模型(FP16/GGUF Q8)
4:04 根据模型元数据设置正确的分辨率和纵横比
4:25 关键图像转视频设置:模型覆盖和视频帧数
4:42 优化视频步数 (30) 和 CFG (6) 以实现 Teacache
5:01 配置 Teacache 模式 (All) 和阈值 (15%)
5:08 设置帧插值 (2x for 32 FPS) 和持续时间
5:22 开始图像转视频:最新 Swarm UI 的重要性
5:41 生成开始:Teacache 和跳步解释
6:05 观察 Teacache 的运行:步数跳跃及其工作原理
6:23 利用 Sage Attention 和 ComfyUI 的自动化设置
6:38 Teacache 性能提升:示例速度提升 (IT/s)
6:51 了解 ComfyUI 块交换和监控 GPU 使用情况
7:18 图像转视频生成完成:总时间和输出
7:32 访问生成的视频和输出格式选项 (H.265)
7:55 文本转视频:应用预设和调整核心设置
8:13 配置文本转视频参数:步数 (30)、FPS、格式
8:27 选择文本转视频模型 (GGUF Q8) 并设置分辨率
8:45 高级设置:UniPC 采样器、Sigma Shift (8)、CFG 影响
9:03 为文本转视频启用 Teacache (15%)
9:15 开始高清文本转视频生成 (GGUF Q8 模型)
9:36 了解性能:高清分辨率和帧数影响
9:54 文本转视频完成:耗时和 Teacache 加速
10:06 下载并查看全高清文本转视频结果
10:19 比较提示效果:图像转视频与文本转视频
10:30 结论:未来预设和 Swarm UI 与 ComfyUI 的强大功能

TeaCache:为扩散模型加速推理

扩散模型彻底改变了图像、视频和音频生成,产生了令人惊叹的逼真和创意输出。然而,其迭代去噪过程通常涉及数百个步骤,使得推理速度非常慢。为了解决这一瓶颈,TeaCache(时间步嵌入感知缓存)作为一种创新的、无需训练的方法出现,可在不显著降低输出质量的情况下显著加速这些模型。


挑战:扩散的迭代性质

扩散模型的核心工作原理是:通过一系列“时间步”逐步从初始随机状态中去除噪声。每个时间步都涉及一个计算密集型的过程,需要通过大型神经网络(通常是 U-Net 或 Transformer)。大量的这些步骤是导致生成时间过长的主要原因,阻碍了快速原型设计和实时应用。


TeaCache 工作原理:秘密武器

TeaCache 的精妙之处在于它观察到相邻时间步(尤其是在去噪的后期阶段)的计算通常会产生高度相似的中间结果或“残差”(模型输出与其输入之间的差异)。TeaCache 不会在每个步骤都重新计算所有内容,而是智能地决定何时重用缓存信息。

“时间步嵌入感知”部分至关重要。以下是其机制的细分:

  • 时间步嵌入作为代理
    扩散模型使用时间步嵌入——当前去噪步骤的向量表示——来指导模型的行为。TeaCache 假设连续时间步嵌入之间的差异可以作为模型内部状态(及其输出)将发生多少变化的良好指标。

  • 预测相似性
    在每个去噪步骤中,TeaCache 将当前时间步嵌入与之前计算的步骤的嵌入进行比较。

  • 重新缩放和阈值化
    然后,使用模型特定的多项式函数(由各种模型的 TeaCache 实现中的系数定义)重新缩放嵌入中的原始差异。这种重新缩放的差异表示模型潜在输出之间的估计“相对 L1 距离”。

  • 缓存决策
    将此估计距离与用户定义的 rel_l1_thresh(相对 L1 阈值)进行比较。

    • 如果距离低于阈值
      这意味着当前步骤的模型输出可能与前一个步骤非常相似。TeaCache 然后跳过当前步骤的完整、昂贵的计算。相反,它重用之前计算的残差(模型输出与上次完全计算步骤的输入之间的差异),并将其应用于当前步骤的输入。

    • 如果距离超过阈值(或如果是第一步/最后一步)
      TeaCache 执行完整的计算,用新的残差更新其缓存,并重置其累积距离计数器。

  • 累积距离
    系统会保留一个 accumulated_rel_l1_distance。如果连续跳过几个步骤,此累积距离会增加。一旦超过 rel_l1_thresh,就会触发完整的计算。

这种自适应缓存策略允许 TeaCache 跳过冗余计算,同时确保模型在预期发生显著变化时执行全面更新,从而保持质量。


TeaCache 的主要优势

  • 无需训练
    TeaCache 最显著的优势之一是它不需要模型重新训练或微调。它可以“在现有预训练扩散模型之上”应用。

  • 显著加速
    如其仓库所示,TeaCache 可以显著加快推理速度,通常可达到 1.5 倍到 2 倍以上,具体取决于模型和所选阈值。

  • 广泛的模型兼容性
    虽然最初专注于视频扩散模型,但 TeaCache 在图像和音频扩散模型上也显示出其有效性。

  • 用户可控的权衡
    rel_l1_thresh 参数为用户提供了直接平衡推理速度和输出质量的方法。更高的阈值会导致更积极的缓存和更快的速度,但可能会引入轻微的质量下降。


支持的模型

TeaCache 具有令人印象深刻的多功能性,并为不断增长的流行扩散模型列表提供了专门的实现和支持:

文本转视频 (T2V):

  • Wan2.1
  • Cosmos
  • CogVideoX1.5
  • LTX-Video
  • Mochi
  • HunyuanVideo
  • CogVideoX
  • Open-Sora
  • Open-Sora-Plan
  • Latte
  • EasyAnimate (通过社区)
  • FramePack (通过社区)
  • FastVideo (通过社区)

图像转视频 (I2V):

  • Wan2.1
  • Cosmos
  • CogVideoX1.5
  • ConsisID
  • EasyAnimate (通过社区)
  • Ruyi-Models (通过社区)

视频转视频 (V2V):

  • EasyAnimate (通过社区)

文本转图像 (T2I):

  • FLUX
  • Lumina-T2X

文本转音频 (T2A):

  • TangoFlux

🎓 关于作者

Furkan Gözükara 博士 - 软件工程助理教授

  • 🎓 计算机工程博士
  • 📺 37,000+ YouTube 订阅者
  • 🎯 AI、Stable Diffusion 和生成模型方面的专家级教程

📞 联系与学习


本教程提供了在 SwarmUI 中实现 Teacache 加速的全面指导,能够以最小的质量损失实现更快的 AI 视频和图像生成。

社区

注册登录 发表评论