ChatGPT-4o 的图像生成能力及其疯狂案例

社区文章发布于 2025 年 4 月 5 日

OpenAI 最近通过集成其 GPT-4o 模型增强了 ChatGPT 的高级图像生成能力。此次更新允许用户直接在 ChatGPT 中通过提供描述性提示来创建详细逼真的图像。该功能最初仅面向 ChatGPT Plus 和 Pro 订阅者提供，现在已扩展到所有用户，包括免费用户，尽管免费用户每天最多只能生成三张图片。

以下是一些示例，展示了不同风格的图像到图像、注重精度的图像生成。

0] 从动漫线稿到彩色动漫艺术

将线稿动漫图片转换为彩色、完成的动漫图片。使用的提示词是：将空白动漫线稿艺术作品上色，渲染分辨率为 1200 x 627。

1] 从单线条艺术到自定义风格图像生成

在这里，我们从单线条艺术开始，生成宫崎骏风格的艺术作品，这是目前正在流行的趋势。使用的提示词是：生成一张宫崎骏风格的图片，渲染分辨率为 1200 x 627。

2] 使用自由风格设计模板重新创建可口可乐海报。

将自由风格模板转换为重新生成的可口可乐海报，类似于《荒野求生》电视广告海报。使用的提示词是：创建图像根据图片中的说明编辑图像。允许 50% 的新创意。生成尺寸为 1200 x 627。

3] 从粗略草图到自定义创意图像生成

该艺术风格专为创意广告设计——将粗略的“房屋出售”草图转换为高质量、详细的图像。使用的提示词是：创建图像根据图片中的说明编辑图像。允许 50% 的新创意。生成尺寸为 1200 x 627。

4] 从未着色图像到着色图像

艺术风格转换将黑白未着色图像转换为着色图像。使用的提示词是：创建图像为图像上色，渲染分辨率为 1200 x 627。

5] 从未完成的《荒野求生》电视节目广告到创意广告，利用图像中的粗略文本细节。

使用粗略的文本细节图像为《荒野求生》创作电视广告。使用的提示词是：创建图像根据图片中的说明编辑图像。允许 50% 的新创意。生成尺寸为 1200 x 627。

6] 从一张图片到另一张图片——将参考图片的风格特征转移并影响目标图片

将一张图片的风格和特征应用到另一张图片，生成一张与参考图片相似的输出。使用的提示词是：创建图像使用第一张图片作为目标，第二张图片作为参考（参考图片是彩色图片，女孩骑自行车）。将未着色图片转换为参考图片的彩色风格。仅将参考图片的颜色风格应用于第一张图片。生成尺寸为 1200 x 627。

目标图片	参考图片

7] 合并多张图片以创建统一的输出图片。

合并或混合图片以创建新的创意图片。使用的提示词是：创建图像合并图片并生成一张新图片，允许 50% 的创作自由度。生成尺寸为 1200 x 627。

图片 1	图片 2

8] 从深度描述性提示生成图像。

文本到图像

从高度详细的提示中生成图像，并对书面文本有更深入的理解。使用的提示词是：创建图像一张广角照片，用手机拍摄，显示一个房间里的玻璃白板，可以看到海湾大桥。一个女人正在白板上书写，她穿着一件印有 OpenAI 标志的 T 恤。她的笔迹自然且略显凌乱，摄影师的倒影在玻璃中隐约可见。白板左侧写着文字：“模态之间的转换：假设我们直接使用一个大的自回归变压器来建模 p(文本，像素，声音)。”下方列出了优点，如“图像生成能力增强，拥有庞大的世界知识，* 下一代文本渲染，* 原生上下文学习，* 统一的后训练堆栈”，接着是缺点：“不同模态的比特率不同，* 计算非自适应。”右侧的“修复”部分写道：“模型压缩表示，* 将自回归先验与强大的解码器结合。”在白板右下角，她勾勒出一个简单的图表，上面写着：“token → [变压器] → [扩散] → 像素。”

人物方向的变化

修改场景中人物的视角或方向。使用的提示词是：创建图像摄影师的自拍视角，她转身与他击掌。

基于文字游戏的 GPT-4o 文本到图像生成

使用 GPT-4o 进行创意文字游戏提示的文本到图像生成。使用的提示词是：创建图像在一所中世纪风格的房屋中，冰箱上用磁性诗歌装饰，词语分几行排列：“一张图片”在第一行，接着是“价值”，“千言万语”，“但有时”——之后有一个很大的空隙，接着是“在正确的地方”，“可以提升”，“它的意义”。一个男人站在旁边，右手拿着“一些”字，左手拿着“词语”字，仿佛在思考它们在视觉诗歌中应该放在哪里。

漫画风格分镜图像生成

将想法转化为漫画风格的视觉效果，使用基于分镜的图像生成。使用的提示词是：创建图像一段四格漫画，开头是一只小蜗牛在豪华汽车展厅的柜台旁，几乎看不见。销售员戏剧性地趴在桌子上才能看到他。在下一格中，是蜗牛的特写，他表情非常严肃地说：“我要你们最快的跑车……我要你们在车门、引擎盖和车顶上都漆上大大的‘S’字母。”第三格显示销售员挠着头，困惑不解。“嗯……我们可以做到，但为什么要S？”在最后一格中，画面突然切换到高速公路上飞驰的红色模糊——那辆跑车，现在全身都是巨大的S，疾驰而过，行人目瞪口呆。人行道上的人们指着大笑，喊道：“哇！看那辆S-CAR GO！”

实验性图像生成 [文本到图像]

通过实验性文本到图像艺术突破界限。使用的提示词是：创建图像一张详细解释牛顿棱镜实验的信息图表。

信息图表的一些不同视角。使用的提示词是：创建图像现在生成一个人在华盛顿广场公园的圆形咖啡桌上，在笔记本上绘制这个图表的视角。

将实时的人物视角融入到实施中。使用的提示词是：创建图像现在展示相同的场景，一个自鸣得意的年轻艾萨克·牛顿坐在桌旁，拿着一个棱镜，演示着实验，笔记本不在视线范围内。

结论

总而言之，ChatGPT-4o 增强的图像生成能力代表了文本和视觉创意的开创性融合。通过让用户（从经验丰富的专业人士到日常爱好者）轻松地将描述性提示转化为生动、详细的图像，这项技术不仅使创意表达大众化，而且突破了数字艺术的可能性边界。无论是重新构想经典设计、为黑白照片上色，还是从复杂叙事中生成全新的场景，GPT-4o 的集成预示着一个艺术愿景和先进人工智能无缝协作的新时代。随着这些工具的不断发展，我们可以期待更多创新方式来捕捉、表达和分享我们的创意想法。文本到图像生成的参考资料来自 OpenAI 关于 ChatGPT-4o 图像生成的公告博客。

感谢阅读🤗 — 现在去创造一些令人惊叹的东西吧！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论