ChatGPT-4o 的图像生成能力及其疯狂案例

OpenAI 最近通过集成其 GPT-4o 模型增强了 ChatGPT 的高级图像生成能力。此次更新允许用户直接在 ChatGPT 中通过提供描述性提示来创建详细逼真的图像。该功能最初仅面向 ChatGPT Plus 和 Pro 订阅者提供,现在已扩展到所有用户,包括免费用户,尽管免费用户每天最多只能生成三张图片。
有趣的事实:OpenAI 表示,仅上周,ChatGPT 用户就生成了超过 7 亿张图片!
以下是一些示例,展示了不同风格的图像到图像、注重精度的图像生成。
0] 从动漫线稿到彩色动漫艺术
将线稿动漫图片转换为彩色、完成的动漫图片。使用的提示词是:将空白动漫线稿艺术作品上色,渲染分辨率为 1200 x 627。
使用的输入图片
这是根据上述输入生成的输出图片。
1] 从单线条艺术到自定义风格图像生成
在这里,我们从单线条艺术开始,生成宫崎骏风格的艺术作品,这是目前正在流行的趋势。使用的提示词是:生成一张宫崎骏风格的图片,渲染分辨率为 1200 x 627。
使用的输入图片
这是根据上述输入生成的输出图片。
2] 使用自由风格设计模板重新创建可口可乐海报。
将自由风格模板转换为重新生成的可口可乐海报,类似于《荒野求生》电视广告海报。使用的提示词是:创建图像根据图片中的说明编辑图像。允许 50% 的新创意。生成尺寸为 1200 x 627。
使用的输入图片
这是根据上述输入生成的输出图片。
3] 从粗略草图到自定义创意图像生成
该艺术风格专为创意广告设计——将粗略的“房屋出售”草图转换为高质量、详细的图像。使用的提示词是:创建图像根据图片中的说明编辑图像。允许 50% 的新创意。生成尺寸为 1200 x 627。
使用的输入图片
这是根据上述输入生成的输出图片。
4] 从未着色图像到着色图像
艺术风格转换将黑白未着色图像转换为着色图像。使用的提示词是:创建图像为图像上色,渲染分辨率为 1200 x 627。
使用的输入图片
这是根据上述输入生成的输出图片。
5] 从未完成的《荒野求生》电视节目广告到创意广告,利用图像中的粗略文本细节。
使用粗略的文本细节图像为《荒野求生》创作电视广告。使用的提示词是:创建图像根据图片中的说明编辑图像。允许 50% 的新创意。生成尺寸为 1200 x 627。
使用的输入图片
这是根据上述输入生成的输出图片。
6] 从一张图片到另一张图片——将参考图片的风格特征转移并影响目标图片
将一张图片的风格和特征应用到另一张图片,生成一张与参考图片相似的输出。使用的提示词是:创建图像使用第一张图片作为目标,第二张图片作为参考(参考图片是彩色图片,女孩骑自行车)。将未着色图片转换为参考图片的彩色风格。仅将参考图片的颜色风格应用于第一张图片。生成尺寸为 1200 x 627。
使用的输入图片
目标图片 | 参考图片 |
---|---|
![]() |
![]() |
这是根据上述输入生成的输出图片。
7] 合并多张图片以创建统一的输出图片。
合并或混合图片以创建新的创意图片。使用的提示词是:创建图像合并图片并生成一张新图片,允许 50% 的创作自由度。生成尺寸为 1200 x 627。
使用的输入图片
图片 1 | 图片 2 |
---|---|
![]() |
![]() |
这是根据上述输入生成的输出图片。
8] 从深度描述性提示生成图像。
文本到图像
从高度详细的提示中生成图像,并对书面文本有更深入的理解。使用的提示词是:创建图像一张广角照片,用手机拍摄,显示一个房间里的玻璃白板,可以看到海湾大桥。一个女人正在白板上书写,她穿着一件印有 OpenAI 标志的 T 恤。她的笔迹自然且略显凌乱,摄影师的倒影在玻璃中隐约可见。白板左侧写着文字:“模态之间的转换:假设我们直接使用一个大的自回归变压器来建模 p(文本,像素,声音)。”下方列出了优点,如“图像生成能力增强,拥有庞大的世界知识,* 下一代文本渲染,* 原生上下文学习,* 统一的后训练堆栈”,接着是缺点:“不同模态的比特率不同,* 计算非自适应。”右侧的“修复”部分写道:“模型压缩表示,* 将自回归先验与强大的解码器结合。”在白板右下角,她勾勒出一个简单的图表,上面写着:“token → [变压器] → [扩散] → 像素。”
这是根据上述输入生成的输出图片。
人物方向的变化
修改场景中人物的视角或方向。使用的提示词是:创建图像摄影师的自拍视角,她转身与他击掌。
这是根据上述输入生成的输出图片。
基于文字游戏的 GPT-4o 文本到图像生成
使用 GPT-4o 进行创意文字游戏提示的文本到图像生成。使用的提示词是:创建图像在一所中世纪风格的房屋中,冰箱上用磁性诗歌装饰,词语分几行排列:“一张图片”在第一行,接着是“价值”,“千言万语”,“但有时”——之后有一个很大的空隙,接着是“在正确的地方”,“可以提升”,“它的意义”。一个男人站在旁边,右手拿着“一些”字,左手拿着“词语”字,仿佛在思考它们在视觉诗歌中应该放在哪里。
这是根据上述输入生成的输出图片。
漫画风格分镜图像生成
将想法转化为漫画风格的视觉效果,使用基于分镜的图像生成。使用的提示词是:创建图像一段四格漫画,开头是一只小蜗牛在豪华汽车展厅的柜台旁,几乎看不见。销售员戏剧性地趴在桌子上才能看到他。在下一格中,是蜗牛的特写,他表情非常严肃地说:“我要你们最快的跑车……我要你们在车门、引擎盖和车顶上都漆上大大的‘S’字母。”第三格显示销售员挠着头,困惑不解。“嗯……我们可以做到,但为什么要S?”在最后一格中,画面突然切换到高速公路上飞驰的红色模糊——那辆跑车,现在全身都是巨大的S,疾驰而过,行人目瞪口呆。人行道上的人们指着大笑,喊道:“哇!看那辆S-CAR GO!”
这是根据上述输入生成的输出图片。
实验性图像生成 [文本到图像]
通过实验性文本到图像艺术突破界限。使用的提示词是:创建图像一张详细解释牛顿棱镜实验的信息图表。
这是根据上述输入生成的输出图片。
信息图表的一些不同视角。使用的提示词是:创建图像现在生成一个人在华盛顿广场公园的圆形咖啡桌上,在笔记本上绘制这个图表的视角。
这是根据上述输入生成的输出图片。
将实时的人物视角融入到实施中。使用的提示词是:创建图像现在展示相同的场景,一个自鸣得意的年轻艾萨克·牛顿坐在桌旁,拿着一个棱镜,演示着实验,笔记本不在视线范围内。
这是根据上述输入生成的输出图片。
结论
总而言之,ChatGPT-4o 增强的图像生成能力代表了文本和视觉创意的开创性融合。通过让用户(从经验丰富的专业人士到日常爱好者)轻松地将描述性提示转化为生动、详细的图像,这项技术不仅使创意表达大众化,而且突破了数字艺术的可能性边界。无论是重新构想经典设计、为黑白照片上色,还是从复杂叙事中生成全新的场景,GPT-4o 的集成预示着一个艺术愿景和先进人工智能无缝协作的新时代。随着这些工具的不断发展,我们可以期待更多创新方式来捕捉、表达和分享我们的创意想法。文本到图像生成的参考资料来自 OpenAI 关于 ChatGPT-4o 图像生成的公告博客。
感谢阅读🤗 — 现在去创造一些令人惊叹的东西吧!