GPT Image 2 实测：它真的会"先思考再画图"吗

昨天 OpenAI 发布了 GPT Image 2.0。

发布公告里有一句话让我印象深刻："它会在画之前先思考。"

这不是比喻。GPT Image 2 接入了和 ChatGPT 文字推理一样的 reasoning 管线——接到你的需求后，它会先在内部推演一遍"这个画面应该怎么构成"，必要时还会联网查参考资料，生成后再自我检查输出结果是否准确。

对比之前，以前的图像生成是"你说什么，我就直接画什么"。现在更像是"你说什么，我先理解，再想怎么画最好"。

GPT Image 2 官方宣布了什么

先说 OpenAI 官方公布的核心改进：

文字渲染准确率大幅提升。 官方数据是拉丁文、中日韩、印地语、孟加拉语的字符级准确率达到约 99%。之前 AI 画图写文字基本是乱码，这次算是正式打通。

最高支持 4K 分辨率（4096×4096），生成速度比上一代快约 2 倍。 商业使用基本不用再担心分辨率问题。

Reasoning 管线：先规划再生成。 模型在生成前会用 chain-of-thought 推演构图、检查空间关系、校验文字准确性，生成后再自我检查。这也是为什么处理复杂提示词时，多个元素的位置关系比以前准确很多。

多轮编辑，保留上下文。 可以在同一张图上反复迭代修改——加元素、去元素、混合风格——每次修改都记得上一步的状态。

细节还原能力提升。 官方描述的改进包括：布料纹理、皮肤毛孔、反光、景深，这些之前模型经常处理失真的细节，这次有明显改善。

我实际跑了几个场景

趁着这次更新，我把自己常用的几类图片提示词都测了一遍。

场景一：城市夜景

这是我一直在用的一套提示词结构，核心是用具体的视觉语言替代模糊描述：

9:16 竖向，城市街景，电影风格，低对比度或霓虹高对比

场景：夜晚街道/雨天/城市角落
元素：路灯、霓虹灯、行人模糊、车辆光轨
构图：纵深感强，引导线明显
光线：局部光源，光影对比明显
情绪：孤独、都市感、叙事性
质感：电影颗粒，轻微模糊或运动感

城市夜景

出来的效果超出预期。霓虹灯光在雨后地面的反射做得很真实，车辆光轨的虚化方向感也对。值得注意的是招牌上的中文"大酒店"渲染得相当清晰，没有变形——这在以前几乎是不可能的。整体氛围压得住，叙事感强。

场景二：产品摄影

电商场景用得最多的需求。提示词里我特别加了"材质真实"这个条件，因为之前的模型经常把玻璃、金属画得很假：

9:16 竖向，产品摄影，单一主体，极简背景（纯色或渐变）

产品：护肤品/电子产品/日用品
构图：中心或偏移构图，突出主体
光线：高光干净，边缘轮廓光清晰，轻反射
风格：高级商业视觉
细节：材质真实（玻璃、金属、塑料质感清晰）
情绪：理性、精致、专业
画质：高清锐度，广告级细节

产品摄影

它自己"决定"生成了一支电动牙刷，底座的金属质感、机身的亮面塑料、刷头的细节层次都做出来了。高光干净，没有过曝，背景渐变也没有噪点。如果不说是 AI 生成，大概率会以为是商品主图。

场景三：极简室内

这类图在设计类内容里经常要用，关键词是"留白"和"负空间"——很多人的提示词写的太满，反而出不来极简感：

9:16 竖向，极简室内空间，现代设计风格，干净线条，低饱和柔和色调，自然光从窗侧进入

场景：客厅或卧室，留白充足，空间通透
元素：低矮家具（沙发/床），木质或布艺材质，少量装饰（书、花、灯）
构图：偏心构图，大量负空间
光线：柔和漫反射光，轻微阴影层次
情绪：安静、松弛、生活感
质感：真实材质纹理，轻微胶片或柔焦效果

极简室内

留白做得很到位，没有塞进多余元素。光线从右侧窗帘透进来，漫射均匀，阴影层次有，但不生硬。地板木纹、亚麻地毯的质感都有，不是那种一眼假的贴图感。整体色温偏暖白，非常适合作为设计类内容的配图直接使用。

场景四：人物肖像

人像是最难控制的一类，以前很容易出"AI 脸"——太完美、太假。这套提示词的核心是主动要求"真实皮肤细节"和"自然不刻意"，用具体的姿态描述代替模糊的"自然感"：

9:16 竖向——编辑肖像，单人主体，柔和黑雾滤镜，轻微朦胧感，柔和高光泛光，
低饱和柔和色调，室内极简空间，干净背景，
年轻韩国女性，轻微质感肌肤，简约自然妆容，真实皮肤细节

服装：紧身罗纹针织上衣或柔软吊带衫，外搭宽松衬衫，高腰短裤或半裙
头发：略显凌乱，自然蓬松，带一点空气感
姿势：站立靠墙，一侧肩膀轻贴墙面，身体微微扭转，重心偏向一侧腿
构图：主体略偏画面一侧，大量留白，强调负空间
表情：平静、略显疏离，自然不刻意
情绪氛围：低调、安静、克制，松弛、不做作
画面质感：细腻纹理，微柔焦感，真实摄影质感，轻电影感

人物肖像

这张靠墙姿势、重心偏移、手自然垂落，姿态指令基本被完整执行了。皮肤没有过度磨皮的蜡质感，能看到一点自然的细节。最关键的是表情——平静但不木讷，有一种刻意营造的"不刻意"，这种细腻的情绪很难用提示词精确控制，这次算是运气也算是模型理解力的体现。

最后

跑完这几个场景，我的感受是：GPT Image 2 不是在某一个方向上突破了，而是整体的"执行精度"提高了——你写的那些细节指令，它真的在认真读。

以前写提示词有时候像在祈祷，写了一堆不知道哪句有用。现在更像是在跟一个有经验的摄影师沟通，你说的每个条件它都在往里套。

这套提示词是我自己用下来比较顺手的结构，你可以直接拿去改，把场景、情绪、材质换成自己需要的，框架是通用的。

codex-mobile hermes-agent-wechat-setup