AI 艺术工具资讯

发布于 2025 年 1 月 31 日

在 GitHub 上更新

Linoy Tsaban

linoyts

来自 multimodal AI art 的 Apolinário

multimodalart

创刊号 🎉

人工智能领域发展如此之快，很难相信一年前我们还在为生成手指数量正确的人物而苦恼 😂。

过去几年对于开源模型和艺术创作工具而言至关重要。用于创意表达的 AI 工具从未如此普及，而我们才刚刚触及表面。加入我们，一同回顾 2024 年 AI 与艺术领域的关键里程碑、工具和突破，并展望 2025 年的未来（剧透 👀：我们将启动一个新的月度综述 👇）。

2024 年主要发布

2024 年有哪些杰出的创意 AI 工具发布？我们将重点介绍创意和艺术领域的重大发布，特别关注图像和视频生成等热门任务中的开源进展。

图像生成

自最初的 Stable Diffusion 发布并以开源模型在图像生成领域掀起波澜两年多以来，如今可以肯定地说，在文生图、图像编辑和可控图像生成方面，开源模型正在给闭源模型带来激烈的竞争。
2024 highlights

文生图

2024 年是我们见证扩散模型范式转变的一年——从传统的基于 Unet 的架构转向扩散 Transformer（DiT），以及目标函数切换到流匹配。

一句话总结 - 扩散模型和高斯流匹配是等价的。流匹配提出了一种网络输出的矢量场参数化方法，这与之前扩散模型中常用的方法不同。

如果您有兴趣了解更多关于流匹配及其与扩散模型的联系，我们推荐这篇来自 Google DeepMind 的精彩博客。

回到实践：首先宣布这一转变的是 Stability AI 发布的 Stable Diffusion 3，然而 HunyuanDiT 成为了首个采用 DiT 架构的开源模型。
这一趋势随着 AuraFlow、Flux.1 和 Stable Diffusion 3.5 的发布而继续。

在开源图像生成模型（不那么长）的历史中，有许多关键时刻，可以肯定地说，Flux.1 的发布是其中之一。Flux [dev] 达到了新的技术水平，在各种基准测试中超越了像 Midjourney v6.0、DALL·E 3 (HD) 这样的热门闭源模型。

个性化与风格化

图像模型进步的一个积极副作用是，文生图模型的个性化技术和可控生成得到了显著改善。

早在 2022 年 8 月，像 Textual Inversion 和 DreamBooth 这样的变革性工作增强了我们向文生图模型教授和引入新概念的能力，极大地扩展了它们的应用范围。这些工作为一系列基于这些技术（例如用于扩散模型的 LoRA）的改进和增强打开了大门。

然而，微调模型的质量上限自然取决于其微调所基于的基础模型。从这个意义上说，我们不能忽视 Stable Diffusion XL，它也是开源图像生成模型个性化的一个重要标志。一个证明是，即使是现在，许多流行的个性化和可控生成技术及模型都是基于 SDXL 的。SDXL（以及之后发布的具有类似质量的模型）的先进能力，加上对扩散模型架构中不同组件语义角色的日益理解，提出了一个问题——
在不进行进一步优化的情况下，我们能实现什么？

紧随其后的是零样本技术的大量涌现 - 2024 年绝对是实现仅凭一张参考图片且无需任何优化就能生成高质量人像的一年。像 IP adapter FaceID、InstantID、Photomaker 等无需训练的技术相继问世，并展示了与微调模型相比具有竞争力甚至更优越的能力。

同样，图像编辑和可控生成——例如带有 canny / depth / pose 约束的图像生成——也取得了进展，这既得益于基础模型质量的不断提高，也得益于社区对不同组件语义角色的日益理解（Instant Style、B-LoRA）。

那么接下来呢？自从范式转向 DiT 和流匹配目标以来，又出现了其他模型，试图利用像 Flux 和 SD3.5 这样的基于 DiT 的模型来实现类似目的，但到目前为止，尽管底层基础模型的质量更高，其效果仍未能超越基于 SDXL 的模型。这可能归因于与 Unet 相比，我们对 DiT 中不同组件的语义角色的理解相对缺乏。2025 年可能是我们识别出 DiT 中这些角色的一年，从而为下一代图像生成模型解锁更多可能性。

视频生成

与图像生成相比，视频生成领域我们还有很长的路要走。但是，可以肯定地说，我们已经比一年前进步了很多。虽然我们全力支持开源，但 AI 视频生成的巨大飞跃（部分）功劳要归于 OpenAI 的 Sora，它彻底改变了我们对视频模型能力的期望。正如 fofr 在《AI 视频正迎来它的 Stable Diffusion 时刻》（我们推荐阅读 🙂）一文中所言，它
让每个人都意识到了什么是可能的。

近期开源视频生成模型的激增也同样引人注目，包括 CogVideoX、Mochi、Allegro、LTX Video 和 HunyuanVideo。由于需要保证运动质量、连贯性和一致性，视频生成本质上比图像生成更具挑战性。此外，视频生成需要大量的计算和内存资源，导致生成延迟很长。这常常阻碍了在本地设备上的使用，使得许多新的开源视频模型在没有进行大量内存优化和量化方法的情况下，无法在社区硬件上运行，而这些方法又会影响推理延迟和生成视频的质量。尽管如此，开源社区还是取得了显著的进步——最近这篇关于开源视频生成模型现状的博客对此进行了介绍。

虽然这意味着大多数社区成员仍然无法使用开源视频模型进行实验和开发，但这也表明我们可以在 2025 年期待重大的进步。

音频生成

音频生成在过去一年中取得了显著进展，从简单的声音发展到带歌词的完整歌曲。尽管面临挑战——音频信号复杂多面，需要比生成文本或图像的模型更复杂的数学模型，且训练数据相当稀缺——2024 年仍见证了像 OuteTTS 和 IndicParlerTTS 这样的开源文本转语音模型的发布，以及 OpenAI 的 Whisper large v3 turbo 用于语音识别。2025 年已经初显成为音频模型的突破年，仅在一月份就有大量的发布。我们见证了三个新的文本转语音模型的发布：Kokoro、LLasa TTS 和 OuteTTS 0.3，以及两个新的音乐模型：JASCO 和 YuE。按照这个速度，我们可以期待在整个年度音频领域会有更多激动人心的发展。

下面这首歌👇就是用 YuE 生成的 🤯

2024 年大放异彩的创意工具

开源的美妙之处在于它允许社区进行实验，为现有模型/流程找到新用途，并共同改进和构建新工具。今年许多流行的创意 AI 工具都是社区共同努力的成果。

以下是我们最喜欢的一些

Flux 微调

去年创作的许多令人惊叹的 Flux 微调模型都是通过 ostris 的 AI-toolkit 训练的。

面孔百变

受 fofr 的 face-to-many 启发，Face to All 结合了热门的 Instant ID 模型，并添加了 ControlNet 深度约束和社区微调的 SDXL LoRA，以创造无需训练的高质量创意风格肖像。

Flux 风格塑造

基于 Nathan Shipley 的 ComfyUI 工作流，Flux 风格塑造结合了 Flux [dev] Redux 和 Flux [dev] Depth，用于风格迁移和视觉错觉创作。

使用 diffusers 进行图像外扩

Diffusers 图像外扩利用 diffusers 的 Stable Diffusion XL 填充流程以及 SDXL union controlnet，无缝地扩展输入图像。

Live portrait, Face Poke

使用 Live Portrait 和 Face Poke，为静态肖像添加动态表情从未如此简单。

TRELLIS

TRELLIS 是一款用于多功能、高质量 3D 资产创建的 3D 生成模型，它以惊人的势头席卷了 3D 领域。

IC Light

IC-Light，全称“Imposing Consistent Light”，是一款带有前景条件的重打光工具。

2025 年 AI 与艺术领域有哪些值得期待？

2025 年将是开源在视频、运动和音频模型方面迎头赶上的一年，为更多模态留出空间。随着高效计算和量化技术的进步，我们可以期待开源视频模型实现重大飞跃。随着图像生成模型接近（自然的）平台期，我们可以将注意力转移到其他任务和模态上。

强势开局 - 2025 年 1 月的开源发布

YuE - 一系列用于完整歌曲生成的开源音乐基础模型。YuE 可能是音乐生成领域最好的开源模型（采用 Apache 2.0 许可证！），其效果可与 Suno 等闭源模型相媲美。

立即试用并了解更多: 演示, 模型权重。

混元 3D-2、SPAR3D、DiffSplat - 3D 生成模型。3D 模型来势汹汹——在 TRELLIS 发布后不久，混元 3D-2、SPAR3D 和 DiffSplat 就已准备好接管 3D 领域。

立即试用并了解更多
Lumina-Image 2.0 - 文生图模型。Lumina 是一个 20 亿参数的模型，其性能可与 120 亿参数的 Flux.1 [dev] 相媲美，并且采用 Apache 2.0 许可证 (!!)。

立即试用并了解更多: 演示, 模型权重。
ComfyUI-to-Gradio - 一个关于如何将复杂的 ComfyUI 工作流转换为简单的 Gradio 应用程序，以及如何将此应用程序部署在 Hugging Face Spaces ZeroGPU 无服务器架构上的分步指南，这使其能够以无服务器的方式免费部署和运行。了解更多请点击这里。

官宣我们的资讯 🗞️

从这篇博客开始，我们（Poli 和 Linoy）将每月为您带来创意 AI 世界的最新动态。在这样一个快速发展的领域，要跟上所有新进展非常困难，更不用说从中筛选信息了。这就是我们介入的地方，希望通过这种方式，我们可以让创意 AI 工具更容易被大家接触到。

更多博客文章

全世界的 LoRA 训练脚本，联合起来！

作者 2024 年 1 月 2 日 • 69

🤗 Diffusers 一周年快乐！

作者 2023 年 7 月 20 日 • 2

社区

tolgacangoz

2 月 6 日

感谢这篇精彩的博文。期待下一期！

ngxson

2 月 17 日

📻 🎙️ 嘿，我为这篇博客文章制作了一个播客，快来听听吧！

该播客由 ngxson/kokoro-podcast-generator 生成，使用了 DeepSeek-R1 和 Kokoro-TTS

lukejamie

2 月 18 日

非常喜欢阅读《AI 艺术工具资讯》——对 2024 年主要由 AI 驱动的创意工具进行了结构清晰、见解深刻的概述！对图像生成、个性化和视频生成部分的剖析，对于理解 AI 如何改变艺术工作流程特别有帮助。

在研究时，我发现了这个关于使用 RunPod 和 ComfyUI 进行 AI 驱动图像生成的资源，其中涵盖了 ComfyUI 的设置、扩散模型工作流以及 Hugging Face 模型的集成：https://mobisoftinfotech.com/resources/blog/flux-on-runpod-using-comfyui。

很想听听您对 2025 年 AI 在风格化和个性化方面的角色将如何演变的看法！

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论