FLUX Kontext Dev 详细本地 Windows 操作教程 — 优于 ChatGPT 和 Gemini 图像编辑
教程链接
- YouTube 链接:https://youtu.be/adF9X9E0Chs
信息
黑森林实验室(BFL)作为 FLUX 模型的发布者,今天兑现承诺发布了 FLUX.1 Kontext DEV 模型。因此,我通宵达旦地进行了大量研究和测试,并准备了这份出色的分步教程,向您展示如何使用这个惊人的模型。通过 FLUX Kontext,您只需通过提示即可随意编辑图像的任何部分。无需遮罩,无需 ControlNet。它还可以修复和放大旧图像,或进行外扩绘制。它甚至可以将多张图像组合成一张新图像。FLUX Kontext 甚至可以将旧的黑白图像着色。这个模型极其强大和多功能,适用于众多任务。
视频中使用的重要链接
- 🔗请点击以下链接下载包含 SwarmUI 安装程序和 AI 模型下载器 Gradio App 的 zip 文件——教程中使用的就是它⤵️
- ▶️ https://www.patreon.com/posts/SwarmUI-Installer-AI-Videos-Downloader-114517862
- ▶️ 如何安装 SwarmUI 主教程:https://youtu.be/fTzlQ0tjxj0
- 🔗 请点击以下链接下载包含ComfyUI一键安装程序的zip文件,该安装程序支持Flash Attention、Sage Attention、xFormers、Triton、DeepSpeed、RTX 5000系列 ⤵️
- ▶️ https://www.patreon.com/posts/Advanced-ComfyUI-1-Click-Installer-105023709
- 🔗 Python、Git、CUDA、C++、FFMPEG、MSVC安装教程——ComfyUI所需 ⤵️
- ▶️ https://youtu.be/DrhUHnYfwC0
- 🔗 SECourses 官方 Discord 10500+ 会员 ⤵️
- ▶️ https://discord.com/servers/software-engineering-courses-secourses-772774097734074388
- 🔗 Stable Diffusion、FLUX、生成式 AI 教程和资源 GitHub ⤵️
- ▶️ https://github.com/FurkanGozukara/Stable-Diffusion
- 🔗 SECourses 官方 Reddit — 保持订阅以了解所有新闻及更多信息 ⤵️
- ▶️ https://www.reddit.com/r/SECourses/
视频章节
- 0:00 FLUX 1 Kontext 开发模型展示和功能
- 0:49 教程设置:SwarmUI 优于 ComfyUI 的简便性
- 1:29 入门:预设和提示指南
- 1:50 步骤 1:下载和更新 SwarmUI
- 2:33 步骤 2:运行模型下载器
- 2:52 步骤 3:下载 FLUX Kontext 开发模型
- 3:45 步骤 4:ComfyUI 和 SwarmUI 的关键更新
- 4:21 步骤 5:导入最新的 SwarmUI 预设
- 5:03 步骤 6:应用 FLUX 预设并加载图像
- 5:21 关键:设置正确的模型架构
- 5:50 如何设置图像分辨率和长宽比
- 6:33 示例 1:使用自然提示更改发色
- 7:26 分析第一个结果和质量保留
- 8:09 示例 2:转换为动漫风格和图像创意
- 9:14 示例 3:通过拼接图像进行多图像交互
- 9:54 使用详细提示生成组合场景
- 10:49 本地生成高分辨率版本
- 11:52 示例 4:使用更大的画布进行外扩绘制策略
- 12:31 生成外扩绘制图像
- 13:05 示例 5:创建著名的吉卜力风格
- 13:49 专业提示:自动生成更高分辨率
- 14:43 示例 6:动漫的高质量潜在图像放大
- 15:55 示例 7:修复和着色旧照片
- 16:39 分析惊人的照片修复结果
- 17:16 如何在私有云(RunPod 和 Massed Compute)上运行
- 18:08 云 GPU 价格和性能比较
- 18:35 结语和如何获得支持
FLUX Kontext:AI 驱动图像编辑的综合指南
引言
由 Black Forest Labs 开发的 FLUX Kontext 代表了 AI 驱动图像编辑和生成领域的重大进步。它利用自然语言处理和复杂的机器学习,允许用户通过简单的文本指令修改图像,使高级编辑功能面向电影制作人、设计师到业余爱好者等广大受众。本文将探讨 FLUX Kontext 的功能、工作原理、应用以及其优势和局限性,为对这一创新工具感兴趣的任何人提供详细概述。
什么是 FLUX Kontext?
FLUX Kontext 是一套生成流匹配模型,专为图像生成和编辑而设计。与从头开始创建图像的传统文本到图像模型不同,FLUX Kontext 执行*上下文图像生成*,这意味着它可以同时处理文本提示和现有图像,以生成连贯、上下文感知的视觉输出。此功能允许对图像的特定部分进行精确修改,同时保留整体构图,使其成为创意工作流程的强大工具。
FLUX Kontext 工作原理
FLUX Kontext 在潜在空间中采用*生成流匹配*方法,这项技术统一了图像生成和编辑。它使用一个 12B 的扩散转换器(在 [dev] 版本中)高效处理高分辨率图像。该模型整合了来自文本提示和输入图像的语义上下文,使其能够精确理解并执行复杂的指令。
例如,当用户上传图像并提供“将汽车颜色改为红色”等提示时,FLUX Kontext 会分析场景,识别汽车,并仅修改其颜色,同时保留背景、光照和其他元素。这是通过*序列拼接*实现的,它使模型能够无缝处理局部和全局编辑任务。
该模型的速度是一大亮点,据 Replicate 报告的测试显示,其推理时间比领先的竞争对手(如 OpenAI 的 4o/gpt-image-1 模型)快八倍。这种效率支持交互式应用和快速原型制作,使其成为时间敏感项目的实用选择。
主要特性和功能
FLUX Kontext 提供了一套强大的功能,使其在其他图像编辑工具中脱颖而出:
- 基于文本的图像编辑:用户可以用自然语言描述更改,例如“将背景换成海滩”或“把裙子染成蓝色”,模型会准确地应用这些编辑。
- 上下文生成:模型生成的新内容与现有图像无缝融合,确保视觉连贯性。
- 角色和对象保留:在多次编辑中保持角色或对象的一致性,这对于讲故事或连续艺术至关重要。
- 局部编辑:FLUX Kontext 可以针对图像的特定区域进行编辑,例如更改单个对象的颜色,而不会影响其他部分。
- 风格参考:用户可以应用特定的风格或美学,例如将图像转换为“90年代卡通”风格。
- 交互式速度:凭借低延迟,模型支持迭代编辑,允许用户快速优化其作品。
- 多步编辑:复杂的编辑可以分解为更小的步骤,提高精度和控制力。
这些功能在 *KontextBench* 上进行了评估,这是一个包含 1,026 对图像-提示对的基准测试,涵盖了五个任务类别:局部编辑、全局编辑、角色参考、风格参考和文本编辑。根据 arXiv 论文的记录,FLUX.1 Kontext [pro] 在文本编辑和角色保留方面表现出色。
实际使用和提示技巧
为了充分利用 FLUX Kontext,用户应遵循以下提示策略,如 Replicate 所述:
- 具体化:使用清晰、详细的语言,例如“将红色汽车改为蓝色”,而不是“改变汽车颜色”。
- 从简单开始:对于复杂的更改,从小的编辑开始,然后迭代构建。
- 有意保留:指定要保留的内容,例如“将背景改为森林,同时保持人物姿势不变”。
- 使用描述性短语:避免使用代词;为清晰起见,使用诸如“那个留着短黑发的女人”之类的短语。
- 引用文本编辑:对于文本更改,请使用引号,例如“将‘Eeny Meeny’替换为‘Flux Kontext’”。
- 控制构图:指定摄像机角度或构图以保持布局,例如“保持原始构图”。
- 仔细选择动词:使用“更改”或“替换”等具体动词,而不是“转换”等模糊动词。
应用
FLUX Kontext 的多功能性使其在各个行业中都具有宝贵价值:
- 电影制作和广告:创作者可以生成和编辑用于故事板、概念艺术或宣传材料的视觉资产。
- 设计和品牌:设计师可以快速迭代视觉概念,创建海报或品牌内容。
- 艺术和插画:艺术家可以构思原型或优化艺术作品,例如创建“90年代卡通”风格。
- 教育和培训:教育工作者可以创建引人入胜的视觉辅助工具或互动材料。
- 社交媒体和内容创作:用户可以将自拍转换为专业的推介或广告。
相对于传统方法的优势
与 Photoshop 等传统图像编辑软件相比,FLUX Kontext 具有以下几点优势:
- 易用性:无需高级技术技能;用户只需简单的文本提示即可获得结果。
- 时间效率:推理时间比竞争对手快八倍,支持快速工作流程。
- 精度和控制:基于文本的指令允许有针对性的编辑,减少意外更改。
- 成本效益:据 Replicate 称,它比 OpenAI 的 4o/gpt-image-1 等模型更便宜,并且没有像黄色色调问题那样影响质量(Replicate)。
- 商业用途:在 Replicate 等平台上生成的输出可用于应用程序、营销或商业目的。
局限性
尽管 FLUX Kontext 具有诸多优点,但也存在一些局限性:
- 视觉伪影:过多的多轮编辑可能会引入伪影或降低图像质量。
- 指令依从性:模型偶尔可能会误解提示,需要用户细化其指令。
- 有限的世界知识:其理解基于训练数据,可能无法涵盖所有现实世界情境。
- 保真度影响:[dev] 版本的蒸馏过程可能导致保真度略低于 [pro] 或 [max] 版本。
这些局限性已在 Black Forest Labs 的公告和 arXiv 论文中提及。
结论
FLUX Kontext 是 AI 驱动图像编辑领域的变革性工具,它提供了一种用户友好、高效、精确的传统方法替代方案。其处理文本和图像输入、保持上下文并提供高质量结果的能力,使其成为各行各业创意人员的颠覆性工具。尽管它有一些局限性,但其速度、可访问性和多功能性使其成为现代视觉工作流程的领先解决方案。随着技术的不断发展,FLUX Kontext 有望进一步重新定义我们创建和编辑图像的方式。