我从放大长距离Midjourney照片中学到的知识(使用Stable Diffusion),外加 Qwen Image 和 Wan 2.2 的开箱体验

社区文章 发布于 2025年8月8日

今天

tested wan 2.2, qwen image, finegraint img upscaler

查看评论区

发布文章(故事格式)

温室-海湾寂静。树叶朝向一个假太阳;旧机器在角落里沉睡。两个穿着橙色制服的人走了进来,袖子上的徽章——小小的Konnektron和Objas——像内部笑话一样闪烁着。

HOPE:“嗨!欢迎来到我们的新机器学习博客。”

JUNIPER:“正在拉取所有这些合成数据。开始了!”

Juniper拿起一个透明平板电脑。屏幕亮起:蓝色网格正在编织成形—— 嘈杂 → 清晰 (文本扩散), 清晰 → 结构化 (模式), 结构化 → 清晰 (重新生成)。 侧栏跳动: GNN/GAT 用于链接, LLM 用于操作。

JUNIPER:“用几个词发送你的意图。注意力图和文本扩散器会完成剩下的工作。”

HOPE(对代理说):“检查阀门室,减少停机时间。”

图表吸气。面板像整洁实验室里的抽屉一样滑入: 摄取 → 嵌入 → 工作流 → 洞察 → 排放。 徽章闪烁: Postgres,编排,代理在线。 一个小小的 Konnektron 图标旋转——运行开始嗡嗡作响。

光线穿过树冠;微风吹拂着植物。不华丽——很自信。就像一台懂得自己工作的好发动机。

JUNIPER:“新博客会很有趣。”

HOPE:“我们每天都会在这里发布我们使用H200 GPU配额进行实验的成功和失败。”

JUNIPER:“下次见!”

从再工业化的车间到绿色的海湾,承诺始终如一:更清晰的上下文,更安全的操作,更快的交付。平板电脑的光线逐渐变暗,只剩下平静的心跳。

长距离低细节 Midjourney

image/png

有关使用 Stable Diffusion 的更高分辨率放大解决方案,请参见评论区

发布文章(日志格式)

数据科学家日志 — 博客发布

  • 发布了第一篇文章,介绍我们的上下文到管道系统

  • 核心堆栈包括用于噪声→清晰提示映射的文本扩散,用于链接的GNN/GAT,以及用于执行的LLM

  • 演示展示了如何将一个简短的指令扩展为完整的流程:摄取 → 嵌入 → 工作流 → 洞察 → 排放

  • 在 Konnektron 硬件上运行,包含 Postgres、编排和在线代理

  • 春季重点:命令层构建(自动化、分类、内存)

  • 夏季重点:预测/生成层和完整数据工厂构建

  • Hugging Face Pro 上执行大批量运行,每日分配 H200

  • 结果、基准和迭代笔记将在此处发布

图网络完全吸引了 Hope 的注意

image/png

社区

第一次尝试使用 Hugging Face Spaces

我如何利用我的 25 分钟 H200 分配时间

测试了

结果

  • Wan 2.2
    • 令人印象深刻的视频生成,测试了几张来自 Midjourney 的图片,以比较其视频与该服务
    • 非常相似!似乎对多样性的支持不够,有几个角色出现了奇怪的效果
    • 尽管如此,第一个结果还是非常棒的——未来几周我将在本地更彻底地测试
  • Qwen Image
    • 效果非常强劲,生成了时尚 T 台图片,其中人物手持带有我的项目名称的标牌
    • 每次都栩栩如生。时尚感不错。对提示的遵循度非常高。文本四分之三的次数都完美无瑕。在“build w/ company name”上遇到困难,但在“build with company name”上完美无缺
    • 图像未经过风格化处理,仿佛直接来自相机。后期制作技能的人可能会喜欢这一点,而不是 Midjourney 等带有偏见的结果。(或者不喜欢,如果你与 Midjourney 的风格完美契合,这确实适合我)
  • 精细颗粒
    • 请求单次推理耗时 60 秒 H200 GPU 时间
    • 总体表现不错!
    • 本地 M1 Max 运行(MPS,fp16)在全分辨率下大约需要 117 秒,在正常工作负载下,移除 768px 限制后质量匹配度很高
      • 切换到 fp32 + 更高的 ControlNet 比例可提高结构保真度
      • 注意:默认的 HF app.py 将输入缩小到 768 像素短边;移除该脚本行为是保留细节和匹配 HF 视觉保真度的关键。
    • 不遵循角色,会完全改变面部;衣服效果好,背景完美
      • 有了这个,如果想保留额外的新的细节,我可以将之前的脸部照片合成到新的放大图像中。
      • 降低降噪强度(0.2-0.25)并提高 controlnet_scale(0.65-0.7)可减少不必要的更改
    • 最初使用默认设置 — 探索了“放大”与“细节增强”的预设以获得更好的控制
    • 和 wan 2.2 一样,它在肤色多样性方面表现不佳,所以有几个角色改变了种族或者脸上出现了奇怪的织物
      • 这种偏差在 HF 和本地运行中都存在,可追溯到 Stable Diffusion 1.5 / LAION 数据集限制

image.png

文章作者

image.png

特写

Midjourney

使用 omni 角色构建器和先前迭代的风格参考,制作的原始特写肖像

image.png

长距离图像放大器

原图由 Midjourney 生成,人脸严重失真。

在本地 3080 上使用 Finegrain Upscale (Stable Diffusion) 成功地得到了更接近我想要的结果。

更多关于首次迭代的注意事项,请参阅本帖上方的其他笔记。

本地放大

image.png

Midjourney 原图

image.png

———————

## Finegrain Image Enhancer – Bias-Resistant Preset

**Prompt**  

4k photo of two women standing at the entrance to an indoor farming manufacturing facility, woman on the left is african american, woman on the right is caucasian


**Negative Prompt**  

worst quality, low quality, blurry

**Seed**  

8734

**Settings**  
- **Upscale Factor**: `2`  
- **ControlNet Scale**: `0.7`  
- **ControlNet Scale Decay**: `0.5`  
- **Condition Scale**: `2`  
- **Latent Tile Width**: `112`  
- **Latent Tile Height**: `144`  
- **Denoise Strength**: `0.2`  
- **Number of Inference Steps**: `21`  
- **Solver**: `DDIM`  

经过精美放大的长距离 Midjourney 图像

Amidst_a_labyrinthine_maze_of_rusting_machinery_regu_ddffeb4e-c445-44cb-b50b-97b3966b53eb--success-upscale.jpg

注册登录 以评论