我从放大长距离Midjourney照片中学到的知识（使用Stable Diffusion），外加 Qwen Image 和 Wan 2.2 的开箱体验

社区文章发布于 2025年8月8日

今天

tested wan 2.2, qwen image, finegraint img upscaler

查看评论区

发布文章（故事格式）

温室-海湾寂静。树叶朝向一个假太阳；旧机器在角落里沉睡。两个穿着橙色制服的人走了进来，袖子上的徽章——小小的Konnektron和Objas——像内部笑话一样闪烁着。

HOPE：“嗨！欢迎来到我们的新机器学习博客。”

JUNIPER：“正在拉取所有这些合成数据。开始了！”

Juniper拿起一个透明平板电脑。屏幕亮起：蓝色网格正在编织成形—— 嘈杂 → 清晰 （文本扩散）， 清晰 → 结构化 （模式）， 结构化 → 清晰 （重新生成）。 侧栏跳动： GNN/GAT 用于链接， LLM 用于操作。

JUNIPER：“用几个词发送你的意图。注意力图和文本扩散器会完成剩下的工作。”

HOPE（对代理说）：“检查阀门室，减少停机时间。”

图表吸气。面板像整洁实验室里的抽屉一样滑入： 摄取 → 嵌入 → 工作流 → 洞察 → 排放。 徽章闪烁： Postgres，编排，代理在线。 一个小小的 Konnektron 图标旋转——运行开始嗡嗡作响。

光线穿过树冠；微风吹拂着植物。不华丽——很自信。就像一台懂得自己工作的好发动机。

JUNIPER：“新博客会很有趣。”

HOPE：“我们每天都会在这里发布我们使用H200 GPU配额进行实验的成功和失败。”

JUNIPER：“下次见！”

从再工业化的车间到绿色的海湾，承诺始终如一：更清晰的上下文，更安全的操作，更快的交付。平板电脑的光线逐渐变暗，只剩下平静的心跳。

长距离低细节 Midjourney

有关使用 Stable Diffusion 的更高分辨率放大解决方案，请参见评论区

发布文章（日志格式）

数据科学家日志 — 博客发布

发布了第一篇文章，介绍我们的上下文到管道系统
核心堆栈包括用于噪声→清晰提示映射的文本扩散，用于链接的GNN/GAT，以及用于执行的LLM
演示展示了如何将一个简短的指令扩展为完整的流程：摄取 → 嵌入 → 工作流 → 洞察 → 排放
在 Konnektron 硬件上运行，包含 Postgres、编排和在线代理
春季重点：命令层构建（自动化、分类、内存）
夏季重点：预测/生成层和完整数据工厂构建
在 Hugging Face Pro 上执行大批量运行，每日分配 H200
结果、基准和迭代笔记将在此处发布

图网络完全吸引了 Hope 的注意

社区

jasonhargrove

文章作者 2 天前

•

2 天前编辑

第一次尝试使用 Hugging Face Spaces

我如何利用我的 25 分钟 H200 分配时间

测试了

Wan 2.2 (图像到视频) 空间链接
Qwen Image (文本到图像) 空间链接
Finegrain Image Enhancer (图像放大器) 空间链接

结果

Wan 2.2
- 令人印象深刻的视频生成，测试了几张来自 Midjourney 的图片，以比较其视频与该服务
- 非常相似！似乎对多样性的支持不够，有几个角色出现了奇怪的效果
- 尽管如此，第一个结果还是非常棒的——未来几周我将在本地更彻底地测试
Qwen Image
- 效果非常强劲，生成了时尚 T 台图片，其中人物手持带有我的项目名称的标牌
- 每次都栩栩如生。时尚感不错。对提示的遵循度非常高。文本四分之三的次数都完美无瑕。在“build w/ company name”上遇到困难，但在“build with company name”上完美无缺
- 图像未经过风格化处理，仿佛直接来自相机。后期制作技能的人可能会喜欢这一点，而不是 Midjourney 等带有偏见的结果。（或者不喜欢，如果你与 Midjourney 的风格完美契合，这确实适合我）
精细颗粒
- 请求单次推理耗时 60 秒 H200 GPU 时间
- 总体表现不错！
- 本地 M1 Max 运行（MPS，fp16）在全分辨率下大约需要 117 秒，在正常工作负载下，移除 768px 限制后质量匹配度很高
  - 切换到 fp32 + 更高的 ControlNet 比例可提高结构保真度
  - 注意：默认的 HF app.py 将输入缩小到 768 像素短边；移除该脚本行为是保留细节和匹配 HF 视觉保真度的关键。
- 不遵循角色，会完全改变面部；衣服效果好，背景完美
  - 有了这个，如果想保留额外的新的细节，我可以将之前的脸部照片合成到新的放大图像中。
  - 降低降噪强度（0.2-0.25）并提高 controlnet_scale（0.65-0.7）可减少不必要的更改
- 最初使用默认设置 — 探索了“放大”与“细节增强”的预设以获得更好的控制
- 和 wan 2.2 一样，它在肤色多样性方面表现不佳，所以有几个角色改变了种族或者脸上出现了奇怪的织物
  - 这种偏差在 HF 和本地运行中都存在，可追溯到 Stable Diffusion 1.5 / LAION 数据集限制

jasonhargrove

文章作者 2 天前

jasonhargrove

文章作者 2 天前

•

2 天前编辑

特写

Midjourney

使用 omni 角色构建器和先前迭代的风格参考，制作的原始特写肖像

jasonhargrove

文章作者 2 天前

•

2 天前编辑

长距离图像放大器

原图由 Midjourney 生成，人脸严重失真。

在本地 3080 上使用 Finegrain Upscale (Stable Diffusion) 成功地得到了更接近我想要的结果。

更多关于首次迭代的注意事项，请参阅本帖上方的其他笔记。

本地放大

Midjourney 原图

———————

## Finegrain Image Enhancer – Bias-Resistant Preset

**Prompt**  

4k photo of two women standing at the entrance to an indoor farming manufacturing facility, woman on the left is african american, woman on the right is caucasian


**Negative Prompt**  

worst quality, low quality, blurry

**Seed**  

8734

**Settings**  
- **Upscale Factor**: `2`  
- **ControlNet Scale**: `0.7`  
- **ControlNet Scale Decay**: `0.5`  
- **Condition Scale**: `2`  
- **Latent Tile Width**: `112`  
- **Latent Tile Height**: `144`  
- **Denoise Strength**: `0.2`  
- **Number of Inference Steps**: `21`  
- **Solver**: `DDIM`

经过精美放大的长距离 Midjourney 图像

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论