新文生图模型王者是通义万相——FLUX DEV 对比 FLUX Krea 对比通义万相写实 vs 通义万相最高质量

社区文章发布于2025年8月6日

作者：Furkan Gözükara - 计算机工程博士，SECourses

我已经完成了超过 700 次生成，以找出在通义万相模型中生成最佳图像的最佳配置。我已在以下帖子中分享了预设和网格图像

我们的预设是在对所有实验进行极其仔细的分析后制定的。上述链接的压缩文件还包含自动下载所有通义万相模型等的下载器。

此处共享的完整质量图库图像

在这篇文章的下方，我还上传了图片到这里，但这里是压缩过的。

我使用了拥有 8x A6000 GPU 的机器进行实验，但如果您的 RAM 足够，通义万相模型甚至可以在 6 GB 显存的 GPU 上运行。
当您分析网格时，您还会发现即使是通义万相的 Q4_1 也能产生惊人的效果。如果您的 RAM 足够，即使是 6 GB 显存的 GPU 也能使用此模型生成惊艳的图像。
如何在以下视频中安装带有 Flash Attention、Sage Attention、xFormers、Triton、DeepSpeed、Insightface、onnxruntime-gpu、GGUF 的 ComfyUI 教程

对比图片

通义万相对提示的理解和遵循能力远超 FLUX Dev。
它的真实感也优于 FLUX Dev，但尚未达到 FLUX Krea Dev 的水平。
然而，通过 LoRA 或微调，它无疑将超越 FLUX 模型。
此外，通义万相的默认分辨率为 1328x1328（1,763,584 像素），而 FLUX Dev 的分辨率为 1024x1024（1,048,576 像素）。
因此，通义万相的原生分辨率比 FLUX Dev 大 68%，这是原生分辨率和质量上的重大改进。
我们为通义万相提供了两种预设
- 通义万相高质量：更好地遵循提示，更好地生成复杂场景（所需时间是快速预设的两倍）。
- 通义万相写实快速：生成更真实的输出。
此外，我们的预设稳健，因此它们在 20-50 步之间表现良好。
步数越多效果越好，但 20 步也可以接受。
希望通义万相的训练能够进入 Kohya Musubi Tuner，我将制作一个一键安装并运行 Musubi Tuner GUI，用于通义万相的训练和研究，并找出最佳训练参数，为每种 GPU 准备配置文件。
我预计，如果您有足够的 RAM，即使是 6 GB 显存的 GPU 也能训练通义万相。
请仔细查看上面帖子的图片，以清楚地看到通义万相与 FLUX 之间的区别——它们是最高质量的。
此外，您可以从这个帖子下载完整的网格（超过 1.6 GB）：https://www.patreon.com/posts/114517862