GPT Image 2 实测:它真的会"先思考再画图"吗
昨天 OpenAI 发布了 GPT Image 2.0。
发布公告里有一句话让我印象深刻:"它会在画之前先思考。"
这不是比喻。GPT Image 2 接入了和 ChatGPT 文字推理一样的 reasoning 管线——接到你的需求后,它会先在内部推演一遍"这个画面应该怎么构成",必要时还会联网查参考资料,生成后再自我检查输出结果是否准确。
对比之前,以前的图像生成是"你说什么,我就直接画什么"。现在更像是"你说什么,我先理解,再想怎么画最好"。
GPT Image 2 官方宣布了什么
先说 OpenAI 官方公布的核心改进:
文字渲染准确率大幅提升。 官方数据是拉丁文、中日韩、印地语、孟加拉语的字符级准确率达到约 99%。之前 AI 画图写文字基本是乱码,这次算是正式打通。
最高支持 4K 分辨率(4096×4096),生成速度比上一代快约 2 倍。 商业使用基本不用再担心分辨率问题。
Reasoning 管线:先规划再生成。 模型在生成前会用 chain-of-thought 推演构图、检查空间关系、校验文字准确性,生成后再自我检查。这也是为什么处理复杂提示词时,多个元素的位置关系比以前准确很多。
多轮编辑,保留上下文。 可以在同一张图上反复迭代修改——加元素、去元素、混合风格——每次修改都记得上一步的状态。
细节还原能力提升。 官方描述的改进包括:布料纹理、皮肤毛孔、反光、景深,这些之前模型经常处理失真的细节,这次有明显改善。
我实际跑了几个场景
趁着这次更新,我把自己常用的几类图片提示词都测了一遍。
场景一:城市夜景
这是我一直在用的一套提示词结构,核心是用具体的视觉语言替代模糊描述:
9:16 竖向,城市街景,电影风格,低对比度或霓虹高对比
场景:夜晚街道/雨天/城市角落
元素:路灯、霓虹灯、行人模糊、车辆光轨
构图:纵深感强,引导线明显
光线:局部光源,光影对比明显
情绪:孤独、都市感、叙事性
质感:电影颗粒,轻微模糊或运动感
出来的效果超出预期。霓虹灯光在雨后地面的反射做得很真实,车辆光轨的虚化方向感也对。值得注意的是招牌上的中文"大酒店"渲染得相当清晰,没有变形——这在以前几乎是不可能的。整体氛围压得住,叙事感强。
场景二:产品摄影
电商场景用得最多的需求。提示词里我特别加了"材质真实"这个条件,因为之前的模型经常把玻璃、金属画得很假:
9:16 竖向,产品摄影,单一主体,极简背景(纯色或渐变)
产品:护肤品/电子产品/日用品
构图:中心或偏移构图,突出主体
光线:高光干净,边缘轮廓光清晰,轻反射
风格:高级商业视觉
细节:材质真实(玻璃、金属、塑料质感清晰)
情绪:理性、精致、专业
画质:高清锐度,广告级细节
它自己"决定"生成了一支电动牙刷,底座的金属质感、机身的亮面塑料、刷头的细节层次都做出来了。高光干净,没有过曝,背景渐变也没有噪点。如果不说是 AI 生成,大概率会以为是商品主图。
场景三:极简室内
这类图在设计类内容里经常要用,关键词是"留白"和"负空间"——很多人的提示词写的太满,反而出不来极简感:
9:16 竖向,极简室内空间,现代设计风格,干净线条,低饱和柔和色调,自然光从窗侧进入
场景:客厅或卧室,留白充足,空间通透
元素:低矮家具(沙发/床),木质或布艺材质,少量装饰(书、花、灯)
构图:偏心构图,大量负空间
光线:柔和漫反射光,轻微阴影层次
情绪:安静、松弛、生活感
质感:真实材质纹理,轻微胶片或柔焦效果
留白做得很到位,没有塞进多余元素。光线从右侧窗帘透进来,漫射均匀,阴影层次有,但不生硬。地板木纹、亚麻地毯的质感都有,不是那种一眼假的贴图感。整体色温偏暖白,非常适合作为设计类内容的配图直接使用。
场景四:人物肖像
人像是最难控制的一类,以前很容易出"AI 脸"——太完美、太假。这套提示词的核心是主动要求"真实皮肤细节"和"自然不刻意",用具体的姿态描述代替模糊的"自然感":
9:16 竖向——编辑肖像,单人主体,柔和黑雾滤镜,轻微朦胧感,柔和高光泛光,
低饱和柔和色调,室内极简空间,干净背景,
年轻韩国女性,轻微质感肌肤,简约自然妆容,真实皮肤细节
服装:紧身罗纹针织上衣或柔软吊带衫,外搭宽松衬衫,高腰短裤或半裙
头发:略显凌乱,自然蓬松,带一点空气感
姿势:站立靠墙,一侧肩膀轻贴墙面,身体微微扭转,重心偏向一侧腿
构图:主体略偏画面一侧,大量留白,强调负空间
表情:平静、略显疏离,自然不刻意
情绪氛围:低调、安静、克制,松弛、不做作
画面质感:细腻纹理,微柔焦感,真实摄影质感,轻电影感
这张靠墙姿势、重心偏移、手自然垂落,姿态指令基本被完整执行了。皮肤没有过度磨皮的蜡质感,能看到一点自然的细节。最关键的是表情——平静但不木讷,有一种刻意营造的"不刻意",这种细腻的情绪很难用提示词精确控制,这次算是运气也算是模型理解力的体现。
最后
跑完这几个场景,我的感受是:GPT Image 2 不是在某一个方向上突破了,而是整体的"执行精度"提高了——你写的那些细节指令,它真的在认真读。
以前写提示词有时候像在祈祷,写了一堆不知道哪句有用。现在更像是在跟一个有经验的摄影师沟通,你说的每个条件它都在往里套。
这套提示词是我自己用下来比较顺手的结构,你可以直接拿去改,把场景、情绪、材质换成自己需要的,框架是通用的。