SwarmUI 视频生成新手指南

社区文章发布于 2025 年 6 月 14 日

Furkan Gözükara

MonsterMMORPG

你想用 SwarmUI 生成 AI 视频？别担心，这很简单！

ComfyUI 后端及 SwarmUI 正确安装教程：https://youtu.be/fTzlQ0tjxj0

在 RunPod 上安装 ComfyUI 后端及 SwarmUI 的正确教程：https://youtu.be/R02kPf9Y3_w

（前言：本指南由 SwarmUI 开发者 mcmonkey 于 2025 年 4 月撰写。未来情况可能会发生变化，本指南最终会过时。）

来源：https://github.com/mcmonkeyprojects/SwarmUI/discussions/716

第一部分：选择视频模型

SwarmUI 支持的视频模型在视频模型支持文档中进行了说明。该页面保持最新，其中列出了所有支持的模型类别、每种模型的独特使用需求、指导您选择正确模型的图表，以及对大多数用户应选择的通用建议。

当您刚开始生成视频时，请保持简单：使用给定模型类别的基础模型，不要过多调整参数，并使用简单/友好的测试内容进行生成。如果出现问题，您可能需要寻求帮助，而且您不想向别人展示您最奇怪的生成结果或难以阅读的冗长提示/参数堆栈。掌握基础知识后，**再**开始生成您真正希望得到的内容。在 civitai 或其他模型网站上搜索适合您期望的微调模型变体或 lora，并使用您真正想要的提示/参数来喂养模型。

撰写本文时，领先的视频模型类别是 Wan 2.1。在这种情况下，文档提供了相当长的安装选项列表。由于我使用的是 RTX 4090，我可以安装大尺寸变体 (14B)，并且使用 fp8 模型可以获得最佳性能。我需要文本转视频和图像转视频模型，对于 i2v，我更喜欢速度更快的选项而不是分辨率更高的选项。因此，我正在下载 Wan 2.1 Text2Video 14B fp8_scaled 和 Wan 2.1 Image2Video 14B 480p fp8_scaled。您自己的选择可能有所不同，当然，如果您将来阅读此内容，可能还会出现不同的选项。

下载模型，将其保存在相关文件夹（通常在 `diffusion_models` 中），我更喜欢将模型整理到子文件夹中，所以我将这些 Wan 模型保存到 `SwarmUI/Models/diffusion_models/Wan/` 中。

在 Swarm 中刷新您的模型列表，并确保模型显示。您可以随意单击菜单侧面的“=”菜单，然后单击“编辑元数据”以向模型添加一些额外信息或图标。

在我实际的个人设置中，我的 wan 文件夹中充满了许多不同的 Wan 变体模型，我添加了一些简单的图标以便更容易识别其中一些模型。

第二部分：基础文本转视频

设置文本转视频 (T2V)

文本转视频是 AI 视频生成最基本的形式。你输入一个提示，然后得到一个视频，就这么简单。老实说，这不是一个很好的方法，原因我们稍后会讲到……但它通常快速且简单，而且每个模型类别都支持它，所以我们从这里开始。

在您的模型列表中，点击您的文本转视频模型以选择它。

确保您的其他参数为默认值 — 如果不确定，请点击右上角的“快速工具”，然后点击“重置参数为默认值”。

在您的参数列表（左侧边栏）中，根据视频模型支持文档和您的选择配置参数。

以我为例，使用 Wan Text2Video 14B，我进行了以下调整：

CFG Scale：降低到 6
文本转视频组：已开启，以便我自定义内部内容
文本转视频帧数：降低到 49。Wan 的默认帧数为 81，但较短的视频生成速度更快。如果您自定义帧数，请确保您选择的帧数受模型支持 — 视频模型支持文档会列出有效范围。
文本转视频格式：我将视频上传到 GitHub 供您阅读，所以我选择了 `gif-hd`，这是 GitHub 原生嵌入的最佳格式。我通常更喜欢 `webp`，但很多网站不支持它。
分辨率：Wan 14B 默认为 960x960，但我想更快地生成，所以我将其减小到自定义的 640x640。Wan 支持此设置，并且仅损失少量质量以换取更快的生成时间。

理解参数

注意：有疑问时，请查阅文档！例如，您是否好奇“文本转视频格式”参数的选项究竟是什么？只需点击那个`？`按钮即可。

SwarmUI 附带文档，包括文档文件夹（视频模型支持文档所在的位置）和 UI 内联文档。您在使用 SwarmUI 时永远不会感到完全迷失——总有办法找出答案。最糟糕的情况是，如果 UI 或文档都没有明确说明，可以在 Discord 上提问。

生成

现在，最重要的参数：提示！我想要一些戏剧性但又可爱的东西，它能体现 SwarmUI 为我生成视频的酷炫之处……那么，`真实视频，一只猫穿过昏暗的彩虹森林，霓虹灯牌上写着“Swarm UI”，索尼 a6100 拍摄`怎么样？不同的模型有不同的提示需求。Wan 是一个喜欢简单明了的英语或中文句子的模型。少量的“标签”可以帮助引导风格，但不要过度使用——在这种情况下，我只会添加一个`索尼 a6100 拍摄`来鼓励它看起来像真实的相机视频而不是卡通美学。

然后……点击那个大大的“生成”按钮！Wan-14B 相当慢，我花了大约 3 分半钟才生成出来。

这……还不错，但不太符合我预期的效果。所有元素都在，但并没有真正聚焦于猫的行走，这才是我想要的。

如果速度有问题，其他模型会更快（例如 Wan 1.3B，或 LTX-V 速度很快，但请查阅视频模型支持文档以获取最新推荐）。

如果您不喜欢结果，请尝试更改基本参数——帧数、提示、分辨率等，然后重试。或者，不更改任何参数（将种子设置为 -1，即随机化）再次生成，看看下次是否能有好运。我建议您在刚开始使用任何新模型时，始终进行各种生成，以便熟悉模型对输入的响应方式。

我稍微调整了参数，也玩了玩随机种子，最后用同样的提示和不同的分辨率，得到了本指南标题中使用的那个视频。

我正在进行一个生成，此时我已能看到构图并非我所愿。

所以我要点击“中断”按钮，告诉它停止。

这将提前结束生成（可能需要几秒钟处理中断），并允许您立即排队进行新的尝试。

观看生成过程

SwarmUI 中的大多数视频模型都原生支持实时预览，因此在等待生成时，您可以观看即将生成的视频预览。

第三部分：文本到图像再到视频

现在，让我们谈谈我认为更好的 AI 视频生成方式：生成一张你非常喜欢的图像，然后使用图像转视频模型使其动起来。我更喜欢这种方式，因为图像模型通常只需几秒钟即可运行，所以你可以对图像进行大量实验，而文本转视频通常需要很长时间才能生成——你不会想等 3 分钟才发现结果很糟糕。此外，图像模型还有大量的 loras 和其他自定义选项，而视频模型通常可用选项较少。

Swarm 让文本到图像再到视频变得超级简单，所以我们来试试吧！

设置图像生成

首先，开始图像生成。图像生成的基本设置在基本使用文档中有所介绍。以我为例，我将使用 Flux Dev，CFG=1（Flux Dev 要求），大部分参数使用默认值，并使用与上述生成相同的提示。

第一次尝试看起来很棒。

启用图像转视频

现在，让我们启用“图像转视频”参数组，选择我们正在使用的视频模型（以我为例是 Wan 14B 480 fp8）。这里的大多数参数您可以保留默认/未设置，它们将自动正确默认。您最想调整的当然是帧数。那个“视频分辨率”参数很神奇，它默认会自动将 Flux 图像 (1024x1024) 调整为视频模型元数据中设置的分辨率（在这种情况下是 640x640），同时考虑您使用的任何宽高比。很方便！我将再次使用 gif-hd，这样我就可以在这里发布到 GitHub。

请注意，我没有勾选“视频 CFG”：Wan 默认 CFG 为 6 已经足够好，当未勾选此选项时，Swarm 会自动将适合该类别的默认 CFG 应用到视频。这与基础模型生成不同，通常情况下您需要自己设置 CFG。

生成视频

现在再次点击“生成”——它会生成一张图片，然后会生成一个视频，视频的第一帧就是你刚刚制作的图片，而视频的其余部分则希望能以一种巧妙的方式移动。不喜欢你得到的图片，也不想等待视频？只需点击“中断”按钮。

视频将被取消，您可以再次尝试。

以我为例，它制作的图片和视频我认为相当不错。

替代方案

如果您喜欢生成的图像，但对生成的视频不满意，那么另一个可用的选项是直接图像转视频，如下所述。您可以简单地提前生成图像，然后单独进行视频生成。这允许您更多地调整视频参数和种子。

这里可能出现的另一个问题是您可能根本就没有足够的系统内存——加载两个完整的扩散模型会占用大量空间！在这种情况下，您需要先生成图像，然后停止并切换到图像转视频生成。

第四部分：直接图像转视频

您已经有了内容的图片，或者已经用文本转图片模型提前生成了一张图片？有一个应用程序可以做到，而且也有一个简单的方法可以做到！

设置

首先，将您的图像拖到“初始图像”参数上，并将“初始图像创意度”设置为 0（*!重要! 确保创意度设置为 0！忘记这一点是一个常见的错误！*）

以我为例，我正在抓取我之前生成的 Flux 图像。

您还需要使用“初始图像”旁边的“分辨率”按钮复制图像的宽高比。

仔细检查您的“分辨率”参数是否设置为您期望的值。

注意：Swarm 的主生成选项卡界面是一个图像生成系统，而图像转视频通常是用于文本转图像转视频设置的特殊情况，所以我们这里所做的是一个小技巧，我们设置了文本转图像转视频，但跳过了文本转图像阶段。这就是为什么我们使用“初始图像”且“创意度=0”，以及为什么我们需要小心模型选择。

在底部的“模型”菜单中，您可以选择任何您想要的模型，这并不特别重要，因为文本转图像阶段被跳过了——但是通常会在这里选择图像转视频模型，以避免内存/加载问题。请注意，您不能将专用图像转视频模型用作真正的基础模型，我们只允许在这里选择它，因为我们明确跳过了该阶段。

现在，真正的设置：启用“图像转视频”参数组，并根据您的需要进行设置。选择我们正在使用的视频模型（在我的例子中是 wan 14B 480 fp8）。这里的大多数参数您可以保留默认/未设置，它们将自动正确默认。您最想调整的当然是帧数。

目前，我希望非常快速地生成视频，所以我将帧数设置为 33，并且我将使用一个小技巧：首先，我将分辨率设置为自定义的 512x512。

然后，我将“视频分辨率”设置为“图像”，这意味着复制我的标准分辨率参数，不进行任何尺寸调整魔法。

如果没有这个，默认的“图像宽高比，模型分辨率”会将图像调整为视频模型的默认分辨率 (640x640)，而我希望更低以获得更快的速度。

当然，格式为gif-hd，因为我需要在这里将我的输出发布到github上。您可能会使用webp。

这是我最终的参数

90 秒后，我得到了一个快速生成的输出。

……有点奇怪，不太像我期待的那种彩虹。我的提示不太对！

Wan 的 I2V 模型的好处是，提示实际上非常简单：我们不需要告诉它图像中有什么，它已经知道了！我们只需要提示动作！因为我上面提示了彩虹，所以它添加了*彩虹动作*。我不想要那个，我只希望猫向前走。我们让它更简单：`猫在森林里向前走`

哇！好多了！

第五部分：更进一步

掌握了基础知识后，您可以在视频生成方面做更多的事情。

尝试其他模型类别如何？总会有新的模型出现。

高分辨率/长时/高细节生成怎么样？你能做出一些美丽的视频吗？

市面上有许多性能/微质量等方面的技巧——TorchCompile、TeaCache 等——具体细节超出了本指南的范围，但您可以查看“高级”部分可用的参数以及服务器选项卡中可用的扩展，以获取一些选项。此外，不要害怕查看 Discord、GitHub、Reddit 等在线讨论，了解最新的热门技术。

一旦你掌握了一个好方法，我最喜欢的部分就是：批量自动化！设置一个你喜欢的文本转图像转视频管道，获取一些能产生出色结果的提示格式和通配符，将“图像”设置为 100，点击“生成”，然后去睡觉。早上醒来时，浏览你一夜之间生成的所有酷炫视频，然后点击你最喜欢的视频上的星形按钮，将它们保存到你图像历史的特殊文件夹中。

想批量自动化图像转视频吗？在您的电脑上填充一个图片文件夹，将文件名设置为图片对应的提示，然后在 SwarmUI 中使用工具 -> 图片编辑批处理 -> 给出您的输入文件夹，选择一个输出文件夹，勾选“用作初始化图片”和“将文件名附加到提示”，然后点击“运行批处理”（替换生成按钮）。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论