SwarmUI 视频生成新手指南
你想用 SwarmUI 生成 AI 视频?别担心,这很简单!
ComfyUI 后端及 SwarmUI 正确安装教程:https://youtu.be/fTzlQ0tjxj0
在 RunPod 上安装 ComfyUI 后端及 SwarmUI 的正确教程:https://youtu.be/R02kPf9Y3_w
(前言:本指南由 SwarmUI 开发者 mcmonkey 于 2025 年 4 月撰写。未来情况可能会发生变化,本指南最终会过时。)
来源:https://github.com/mcmonkeyprojects/SwarmUI/discussions/716
第一部分:选择视频模型
SwarmUI 支持的视频模型在视频模型支持文档中进行了说明。该页面保持最新,其中列出了所有支持的模型类别、每种模型的独特使用需求、指导您选择正确模型的图表,以及对大多数用户应选择的通用建议。
当您刚开始生成视频时,请保持简单:使用给定模型类别的基础模型,不要过多调整参数,并使用简单/友好的测试内容进行生成。如果出现问题,您可能需要寻求帮助,而且您不想向别人展示您最奇怪的生成结果或难以阅读的冗长提示/参数堆栈。掌握基础知识后,**再**开始生成您真正希望得到的内容。在 civitai 或其他模型网站上搜索适合您期望的微调模型变体或 lora,并使用您真正想要的提示/参数来喂养模型。
撰写本文时,领先的视频模型类别是 Wan 2.1。在这种情况下,文档提供了相当长的安装选项列表。由于我使用的是 RTX 4090,我可以安装大尺寸变体 (14B),并且使用 fp8 模型可以获得最佳性能。我需要文本转视频和图像转视频模型,对于 i2v,我更喜欢速度更快的选项而不是分辨率更高的选项。因此,我正在下载 Wan 2.1 Text2Video 14B fp8_scaled 和 Wan 2.1 Image2Video 14B 480p fp8_scaled。您自己的选择可能有所不同,当然,如果您将来阅读此内容,可能还会出现不同的选项。
下载模型,将其保存在相关文件夹(通常在 `diffusion_models` 中),我更喜欢将模型整理到子文件夹中,所以我将这些 Wan 模型保存到 `SwarmUI/Models/diffusion_models/Wan/` 中。
在 Swarm 中刷新您的模型列表,并确保模型显示。您可以随意单击菜单侧面的“=”菜单,然后单击“编辑元数据”以向模型添加一些额外信息或图标。
在我实际的个人设置中,我的 wan 文件夹中充满了许多不同的 Wan 变体模型,我添加了一些简单的图标以便更容易识别其中一些模型。
第二部分:基础文本转视频
设置文本转视频 (T2V)
文本转视频是 AI 视频生成最基本的形式。你输入一个提示,然后得到一个视频,就这么简单。老实说,这不是一个很好的方法,原因我们稍后会讲到……但它通常快速且简单,而且每个模型类别都支持它,所以我们从这里开始。
在您的模型列表中,点击您的文本转视频模型以选择它。
确保您的其他参数为默认值 — 如果不确定,请点击右上角的“快速工具”,然后点击“重置参数为默认值”。
在您的参数列表(左侧边栏)中,根据视频模型支持文档和您的选择配置参数。
以我为例,使用 Wan Text2Video 14B,我进行了以下调整:
- CFG Scale:降低到 6
- 文本转视频组:已开启,以便我自定义内部内容
- 文本转视频帧数:降低到 49。Wan 的默认帧数为 81,但较短的视频生成速度更快。如果您自定义帧数,请确保您选择的帧数受模型支持 — 视频模型支持文档会列出有效范围。
- 文本转视频格式:我将视频上传到 GitHub 供您阅读,所以我选择了 `gif-hd`,这是 GitHub 原生嵌入的最佳格式。我通常更喜欢 `webp`,但很多网站不支持它。
- 分辨率:Wan 14B 默认为 960x960,但我想更快地生成,所以我将其减小到自定义的 640x640。Wan 支持此设置,并且仅损失少量质量以换取更快的生成时间。
理解参数
注意:有疑问时,请查阅文档!例如,您是否好奇“文本转视频格式”参数的选项究竟是什么?只需点击那个`?`按钮即可。
SwarmUI 附带文档,包括文档文件夹(视频模型支持文档所在的位置)和 UI 内联文档。您在使用 SwarmUI 时永远不会感到完全迷失——总有办法找出答案。最糟糕的情况是,如果 UI 或文档都没有明确说明,可以在 Discord 上提问。
生成
现在,最重要的参数:提示!我想要一些戏剧性但又可爱的东西,它能体现 SwarmUI 为我生成视频的酷炫之处……那么,`真实视频,一只猫穿过昏暗的彩虹森林,霓虹灯牌上写着“Swarm UI”,索尼 a6100 拍摄`怎么样?不同的模型有不同的提示需求。Wan 是一个喜欢简单明了的英语或中文句子的模型。少量的“标签”可以帮助引导风格,但不要过度使用——在这种情况下,我只会添加一个`索尼 a6100 拍摄`来鼓励它看起来像真实的相机视频而不是卡通美学。
然后……点击那个大大的“生成”按钮!Wan-14B 相当慢,我花了大约 3 分半钟才生成出来。
这……还不错,但不太符合我预期的效果。所有元素都在,但并没有真正聚焦于猫的行走,这才是我想要的。
如果速度有问题,其他模型会更快(例如 Wan 1.3B,或 LTX-V 速度很快,但请查阅视频模型支持文档以获取最新推荐)。
如果您不喜欢结果,请尝试更改基本参数——帧数、提示、分辨率等,然后重试。或者,不更改任何参数(将种子设置为 -1,即随机化)再次生成,看看下次是否能有好运。我建议您在刚开始使用任何新模型时,始终进行各种生成,以便熟悉模型对输入的响应方式。
我稍微调整了参数,也玩了玩随机种子,最后用同样的提示和不同的分辨率,得到了本指南标题中使用的那个视频。
我正在进行一个生成,此时我已能看到构图并非我所愿。
所以我要点击“中断”按钮,告诉它停止。
这将提前结束生成(可能需要几秒钟处理中断),并允许您立即排队进行新的尝试。
观看生成过程
SwarmUI 中的大多数视频模型都原生支持实时预览,因此在等待生成时,您可以观看即将生成的视频预览。
第三部分:文本到图像再到视频
现在,让我们谈谈我认为更好的 AI 视频生成方式:生成一张你非常喜欢的图像,然后使用图像转视频模型使其动起来。我更喜欢这种方式,因为图像模型通常只需几秒钟即可运行,所以你可以对图像进行大量实验,而文本转视频通常需要很长时间才能生成——你不会想等 3 分钟才发现结果很糟糕。此外,图像模型还有大量的 loras 和其他自定义选项,而视频模型通常可用选项较少。
Swarm 让文本到图像再到视频变得超级简单,所以我们来试试吧!
设置图像生成
首先,开始图像生成。图像生成的基本设置在基本使用文档中有所介绍。以我为例,我将使用 Flux Dev,CFG=1(Flux Dev 要求),大部分参数使用默认值,并使用与上述生成相同的提示。
第一次尝试看起来很棒。
启用图像转视频
现在,让我们启用“图像转视频”参数组,选择我们正在使用的视频模型(以我为例是 Wan 14B 480 fp8)。这里的大多数参数您可以保留默认/未设置,它们将自动正确默认。您最想调整的当然是帧数。那个“视频分辨率”参数很神奇,它默认会自动将 Flux 图像 (1024x1024) 调整为视频模型元数据中设置的分辨率(在这种情况下是 640x640),同时考虑您使用的任何宽高比。很方便!我将再次使用 gif-hd,这样我就可以在这里发布到 GitHub。
请注意,我没有勾选“视频 CFG”:Wan 默认 CFG 为 6 已经足够好,当未勾选此选项时,Swarm 会自动将适合该类别的默认 CFG 应用到视频。这与基础模型生成不同,通常情况下您需要自己设置 CFG。
生成视频
现在再次点击“生成”——它会生成一张图片,然后会生成一个视频,视频的第一帧就是你刚刚制作的图片,而视频的其余部分则希望能以一种巧妙的方式移动。不喜欢你得到的图片,也不想等待视频?只需点击“中断”按钮。
视频将被取消,您可以再次尝试。
以我为例,它制作的图片和视频我认为相当不错。
替代方案
如果您喜欢生成的图像,但对生成的视频不满意,那么另一个可用的选项是直接图像转视频,如下所述。您可以简单地提前生成图像,然后单独进行视频生成。这允许您更多地调整视频参数和种子。
这里可能出现的另一个问题是您可能根本就没有足够的系统内存——加载两个完整的扩散模型会占用大量空间!在这种情况下,您需要先生成图像,然后停止并切换到图像转视频生成。
第四部分:直接图像转视频
您已经有了内容的图片,或者已经用文本转图片模型提前生成了一张图片?有一个应用程序可以做到,而且也有一个简单的方法可以做到!
设置
首先,将您的图像拖到“初始图像”参数上,并将“初始图像创意度”设置为 0(*!重要! 确保创意度设置为 0!忘记这一点是一个常见的错误!*)
以我为例,我正在抓取我之前生成的 Flux 图像。
您还需要使用“初始图像”旁边的“分辨率”按钮复制图像的宽高比。
仔细检查您的“分辨率”参数是否设置为您期望的值。
注意:Swarm 的主生成选项卡界面是一个图像生成系统,而图像转视频通常是用于文本转图像转视频设置的特殊情况,所以我们这里所做的是一个小技巧,我们设置了文本转图像转视频,但跳过了文本转图像阶段。这就是为什么我们使用“初始图像”且“创意度=0”,以及为什么我们需要小心模型选择。
在底部的“模型”菜单中,您可以选择任何您想要的模型,这并不特别重要,因为文本转图像阶段被跳过了——但是通常会在这里选择图像转视频模型,以避免内存/加载问题。请注意,您不能将专用图像转视频模型用作真正的基础模型,我们只允许在这里选择它,因为我们明确跳过了该阶段。
现在,真正的设置:启用“图像转视频”参数组,并根据您的需要进行设置。选择我们正在使用的视频模型(在我的例子中是 wan 14B 480 fp8)。这里的大多数参数您可以保留默认/未设置,它们将自动正确默认。您最想调整的当然是帧数。
目前,我希望非常快速地生成视频,所以我将帧数设置为 33,并且我将使用一个小技巧:首先,我将分辨率设置为自定义的 512x512。
然后,我将“视频分辨率”设置为“图像”,这意味着复制我的标准分辨率参数,不进行任何尺寸调整魔法。
如果没有这个,默认的“图像宽高比,模型分辨率”会将图像调整为视频模型的默认分辨率 (640x640),而我希望更低以获得更快的速度。
当然,格式为gif-hd,因为我需要在这里将我的输出发布到github上。您可能会使用webp。
这是我最终的参数
90 秒后,我得到了一个快速生成的输出。
……有点奇怪,不太像我期待的那种彩虹。我的提示不太对!
Wan 的 I2V 模型的好处是,提示实际上非常简单:我们不需要告诉它图像中有什么,它已经知道了!我们只需要提示动作!因为我上面提示了彩虹,所以它添加了*彩虹动作*。我不想要那个,我只希望猫向前走。我们让它更简单:`猫在森林里向前走`
哇!好多了!
第五部分:更进一步
掌握了基础知识后,您可以在视频生成方面做更多的事情。
尝试其他模型类别如何?总会有新的模型出现。
高分辨率/长时/高细节生成怎么样?你能做出一些美丽的视频吗?
市面上有许多性能/微质量等方面的技巧——TorchCompile、TeaCache 等——具体细节超出了本指南的范围,但您可以查看“高级”部分可用的参数以及服务器选项卡中可用的扩展,以获取一些选项。此外,不要害怕查看 Discord、GitHub、Reddit 等在线讨论,了解最新的热门技术。
一旦你掌握了一个好方法,我最喜欢的部分就是:批量自动化!设置一个你喜欢的文本转图像转视频管道,获取一些能产生出色结果的提示格式和通配符,将“图像”设置为 100,点击“生成”,然后去睡觉。早上醒来时,浏览你一夜之间生成的所有酷炫视频,然后点击你最喜欢的视频上的星形按钮,将它们保存到你图像历史的特殊文件夹中。
想批量自动化图像转视频吗?在您的电脑上填充一个图片文件夹,将文件名设置为图片对应的提示,然后在 SwarmUI 中使用工具 -> 图片编辑批处理 -> 给出您的输入文件夹,选择一个输出文件夹,勾选“用作初始化图片”和“将文件名附加到提示”,然后点击“运行批处理”(替换生成按钮)。