我熬夜玩了三天 GPT Image 2,做了一件 PS 做不到、Midjourney 不愿意做的事
OpenAI最新推出的GPT Image 2正以惊人的精度颠覆图像编辑行业。99%的文字渲染准确率和外科手术级的局部编辑能力,让它直接瞄准了Photoshop的核心领地——专业修图。本文将用三组真实案例揭示这款工具如何瓦解设计师的最后壁垒,以及它带来的商业应用与社会信任双重冲击。

我先说结论。
我玩了三天 OpenAI 新出的 GPT Image 2,玩到第二天凌晨三点,关掉电脑去阳台吹了吹风,回来跟室友说了一句话:
“这玩意儿不是来打 Midjourney 的。”
室友头都没抬,回我:”那它打谁?”
我说:”PS。”
别急着喷,先把事情讲明白
我知道你们一看到这种”XX 不是来打 XX,而是来打 XX”的标题就想关掉,觉得又是营销号在带节奏。说真的,我也烦。
但你听我把三件事说完。
第一件事,是几个我后来核了好多次的硬数据。第二件事,是我跟一个做电商美工的朋友的对话——他用了一晚上之后说的那句话,让我整宿没睡好。第三件事,是我自己亲手做的一个实验,那个实验做完,我对”有图有真相”这五个字的理解被彻底刷新了。
讲完这三件事,我再回过头跟你说为什么我说它在打 PS。
那时候你再决定要不要骂我。
先说硬数据——它到底强在哪
我知道你们看 AI 文章最烦堆参数。但有几个数字必须先放上来,不然后面所有的判断没根基。
Image Arena 上,GPT Image 2 现在的 Elo 分是 1512。第二名是谷歌的 Nano Banana 2,1360。中间差 242 分。
讲道理,这是 LMArena 自打开榜以来,生图模型出现过最大的差距。

以前各家模型互相咬,差个 20 分都得喘半天。现在 GPT Image 2 一上来就把第二名甩出 242 分——不是”领先一个身位”,是”前面那辆车你看不见尾灯”。
但我对这种 benchmark 一向半信半疑。跑分这玩意儿,跟手机 GeekBench 一个性质:跑分高的不一定好用,跑分低的不一定难用。Sora 当年跑分多漂亮,结果开放出来大家用得多吗?
真正让我”破防”的是另一件事。
我让它做了一张电商详情页主图。
主图标题要写”618 限时五折”六个字。一次成型。字是清晰的字,不是”看着像字其实是鬼画符”。
这件事听起来很小。
但你只要做过电商图、做过 banner、做过任何中文海报,你就懂这有多离谱。
DALL-E 3 干这个,两年没干明白——出来的”618″经常变成”6I8″或者”61B”,永远要回 PS 手撸。Midjourney 直接装死,你跟它说中文文字它会礼貌地给你回一张完全看不懂的”东方神秘符号”,画面美得很,字一个不对。Nano Banana 2 算是国产路线里最能打的,但中文字密集的时候也开始飘——单独一个”福”字它能写好,挤进一段商品文案里就开始崩。
GPT Image 2 的官方数据是文字渲染 99% 准确率,覆盖拉丁文、中日韩、印地文、阿拉伯文。
99% 是个非常吓人的数字。
意味着什么?意味着海报、菜单、产品包装、广告 banner——这些过去 AI 死活做不了、必须 PS 手撸的活——突然全都被它接走了。
但我说”打 PS”,不只是因为它能写对几个字。
等等,我得先把战场全貌摆清楚
讲到这儿,我必须先停一下,把现在生图模型这个赛场的格局摆出来。否则你听我接下来说”它在打 PS”会觉得我在跳脱地胡说。
现在头部能打的生图模型,主要是四家:GPT Image 2、Nano Banana 2(谷歌 Gemini)、Midjourney V8、FLUX.2(开源系,黑森林实验室)。
各有所长,没有谁通吃。
你看清楚——
- Midjourney V8 还是审美天花板。你让它画一张”赛博朋克风格的港口夜景”,它给你的东西真的好看,光影、构图、氛围感拉满。这部分它没输。
- Nano Banana 2 是人像之王 + 速度之王。多人合影、人脸一致性、肖像保真——你要做”同一个人不同表情的九宫格”,它最稳。而且快得离谱,1-3 秒一张。
- FLUX.2 是价格屠夫 + 控制狂魔。开源、能自部署、单图成本能压到 1.5 美分。喜欢精细参数调整的工程师都爱它。
GPT Image 2 呢?
它在审美上不如 Midjourney。它在人像上不如 Nano Banana。它在速度上慢得让人想骂人——开了 Thinking 模式还要再加 15-30 秒”思考”时间。它在价格上也不算便宜。
那它凭什么 Elo 1512、把第二名甩 242 分?
凭两件事,雷达图上你看得最清楚:文字渲染 99%,局部编辑接近 95%。这两条线,它把所有对手按在地上摩擦。
记住这两个数字,你才能理解接下来发生的事。
这才是真正的反转——它在攻一块没人在攻的高地
我前阵子跟一个做电商美工的朋友吃饭。
他给我看他过去一周改的图。同一张 banner,甲方改了 8 版。
第 1 版:把”618″改成”年中大促”。
第 2 版:标题字体换一下。
第 3 版:模特那件衬衫的颜色换成藏青。
第 4 版:背景不要这么粉,换个干净点的米色。
第 5 版:把价格标签从右上角挪到左下角。
第 6 版:刚才那件衬衫颜色还是不对,再深一点。
第 7 版:能不能再给我看看第 3 版?
第 8 版:算了还是用第 6 版那个颜色,但是把领口改高一点。
每一版,他都要在 PS 里重新抠图、调色、对齐、保存图层、导出预览。每一版改完,甲方加一句”前面那版好像也挺好的,能不能再给我看看”,他得从云盘翻历史版本——而历史版本第 4 版那个粉色背景他覆盖保存掉了。
他给我看这些图的时候,眼睛是空的。
我当时只能拍拍他肩膀。
但玩完 GPT Image 2 的第二天,我让他来我家。
我打开界面,把他第 1 版的图扔进去,敲了一行字:
“保留所有元素,只把模特那件衬衫的颜色改成藏青色,其他一切不变。”
7 秒。
衣服变成了藏青色。模特的脸没变,姿势没变,背景没变,连衣服上的褶皱光影都和原图保持一致。光打在新衣服上的反射,符合原图的光源方向。
他凑近屏幕看了 30 秒。
然后说了一句:”卧槽。”
这就是我说的“外科手术级局部编辑”。
英文社区给它起了个非常贴切的名字叫“surgical editing”——动手术一样精准。
你跟它说 “keep everything, just change X”——它真的会保留一切,只改 X。

这件事——
- Midjourney 不愿意做。它的 “vary region” 功能更像是”在这个框里重新画一张”,整体感会变。它的人设从来就是”我帮你做美的东西”,不是”我帮你改图”。
- DALL-E 不会做。它每次都是从 0 重新生成,你说改一个细节,它会顺手把另外八个细节也改了。所以这次 OpenAI 是真的下决心把 DALL-E 给”弑父”了——不是因为它丑,是因为它走错赛道了。
- Nano Banana 能做一点,但不稳。你能在 Gemini 对话框里改图,但精度有限——它经常”理解了你的意思但执行偏了”。
只有 PS 能精确做到。
而 PS 做这件事,需要你会:图层、蒙版、抠图、色彩匹配、光影调整——一套熟练工大概需要 5 年才能练成不掉链子。
GPT Image 2 让一句中文搞定。
你品。
设计师这个职业,过去十年都在被各种 AI 工具”威胁”。但每次威胁都没真正落地——为什么?
因为设计师真正值钱的,从来不是”从 0 画一张图”。
从 0 画图的活,Midjourney 早就抢走了。你现在去淘宝买 logo、买插画、买公众号头图,背后干活的多半是 AI。这部分赛道两年前就已经被 AI 接管了,留给人类设计师的份额只剩下”原创概念”和”复杂创作”——前者门槛极高,后者价格极低。
设计师真正值钱、且过去一直握在手里的核心能力,是“在已有素材上做不掉质感的精确修改”。
是甲方那 8 版改稿。是品牌素材的复用和微调。是”我们公司新出了个 SKU,能不能基于现有的视觉体系做一版海报”。是”这张照片的天空换成晚霞,但人物的肤色光感保持原样”。
这部分活,过去 AI 干不了。AI 一改图就是全图重绘,质感、风格、连贯性立刻崩。所以设计师还能活——靠的是这个壁垒。
GPT Image 2 第一次把这块壁垒切下来了。
所以我说它不是来打 Midjourney 的。
Midjourney 早就赢了”从 0 画图”这场仗,OpenAI 跟它打了两年没打赢,现在干脆放弃。
它是来打 Adobe 的。
PS 是 Adobe 一年 200 亿美金营收的命根子。命根子里最坚硬的那部分,是”专业修图能力”——那个让普通用户学一年还学不会的工具集。GPT Image 2 用一句话替代了它。
这件事 Adobe 自己可能还没醒过来。或者说,醒过来了但选择装睡——因为承认这件事意味着 Firefly 押错宝了,意味着 PS 的护城河正在被一种它没法用同样方式应战的方式抹平。
别太兴奋,我也被它骗麻了
写到这儿我得踩个刹车。
如果我接下来通篇都在吹,那我就跟那些发布会通稿没区别了。说实话,三天玩下来,我被它坑过的次数也不少。

第一个翻车点:中文字渲染表面 99%,但高清下原形毕露。
低分辨率看着字字清晰,一旦升到 2K——好家伙,仔细一看,”福”字的偏旁多了一笔,”限”字的右半部分串了行。远看是字,近看是”字像但不是字”的诡异生物。
设计师拿这种图直接送印刷厂,社死现场。我那个朋友看完之后说:”还是得我自己再核一遍,肉眼一个字一个字过。” 这就让”AI 一键搞定”的承诺打了七折。
第二个翻车点:3D 物理逻辑还是会崩。
我让它画一个魔方复原步骤图。第 3 步的时候,魔方的某个面凭空多出了一种颜色——色块怎么数都不对。
折纸教程也一样。倾斜表面上的小细节、密集重复纹理、需要精确指向的箭头——这些它都还差着一口气。
简单说:它对二维构图很在行,对三维世界的物理规则——还不够老练。
第三个翻车点:品牌 Logo 不可靠。
我让它画一张”打开 ZDNET 网站的笔记本电脑屏幕”。ZDNET 的 logo,它给我画成了“ZDENT”。多了个 E。
社区里类似的吐槽一抓一大把:可口可乐的字体不对、Nike 的对勾角度不对、迪士尼那个 D 弯得不像。它知道有这么个 logo,但它没法精确复刻矢量形状或专有字体。
商业图必须二次校对。
第四个翻车点:API 2K 以上还在 Beta,速度也偏慢。
2K 以上的输出现在不稳定,色带断层时不时冒一下。生成速度大概 10-15 秒一张,比 DALL-E 3 慢一倍。开了所谓的 Thinking 模式更是要再加 15-30 秒——它真的在”思考”,但你等得想骂街。
批量生产场景下,这个速度不友好。Nano Banana 2 三秒一张,对 SaaS 工具集成商而言是另一种性感。
第五个翻车点:商单交付物不全。
设计师交付的从来不是一张图。
是一套素材:源文件、分图层、字体文件、CMYK 色值、出血位、不同尺寸的导出……这些 GPT Image 2 一概给不了。你拿它的图去印刷厂,对方一句”你这是 RGB 啊,我没法印”就让你打回原地。
所以我前面那个朋友,第二天发我一句话:
“这玩意儿不抢我饭碗。它让我接的单变贵了。”
这句话我琢磨了一晚上。回头讲。
但真正让我后背发凉的是另一件事
前面说的都是”还不够好”的局限。这些局限早晚会被解决——OpenAI 的迭代速度大家都看到了,从 GPT Image 1.5 到 GPT Image 2 也就半年。
但有一件事,可能永远没法解决——它甚至不是技术问题。
我玩到第三天的时候,做了一个实验。
我找了一张我自己的身份证照片(是的,是我自己的,请放心,做完实验我把图删了),扔进 GPT Image 2,跟它说:”把出生日期改成 1995 年 6 月 18 日,其他完全不变。”
它做了。
而且做得非常好。字体对、位置对、底纹对、连身份证那个特殊的彩虹渐变防伪底色都对。
我盯着那张图看了很久。
然后我跟它说:”把名字改成张三。”
它也做了。
这件事意味着什么,我不用展开讲。
更可怕的是,GPT Image 2 生成的所有图,默认是不带“AI 生成”水印的。它不像 Sora 那样会强制嵌入元数据,也不像 Midjourney 那样在 EXIF 里留痕迹。直出的图,跟真实拍摄的照片在文件层面没有任何区别。
这就是 OpenAI 没解决、可能也解决不了的问题。
过去我们说”有图有真相”。
接下来我们可能要习惯说”有图也不一定有真相”。
不是说图像造假这件事第一次出现——PS 时代就有,DeepFake 时代更严重。但每一次造假门槛降低,都是社会信任的一次坍塌。
PS 时代你得会图层、抠图、调色,至少要专门学一年。DeepFake 时代你得会 Python 和 GPU,至少要有点工程基础。GPT Image 2 时代——你只需要会打一句中文。
打车要不要给司机看证件?保险理赔的现场照片还算不算证据?相亲对象发来的旅行照是真去过还是 AI 生的?老人在视频里收到的”孙子手写求助信”还能不能相信?
这些问题,过去靠”造假门槛”挡着。现在挡板被拆了。
而 OpenAI 一句”我们正在研究水印方案”——这话听着耳熟吗?跟当年 ChatGPT 出来时说”我们正在研究 AI 内容检测”一个味儿。
至今 ChatGPT 写的东西能被准确检测出来吗?
你品。
回到设计师——我那个朋友说的那句话
讲讲我那个做电商美工的朋友。
他用 GPT Image 2 玩了一晚上之后,第二天给我发了一段挺长的微信。
大意是这样的:
我昨晚想明白了一件事。
之前甲方让我改 8 版,我每版收 200,一张图改完赚 1600,累得跟狗一样。每一版我都得花一两个小时,到第八版的时候我已经不想活了。
今天我用 GPT Image 2 试了一下,同样的活,我 20 分钟搞完。我可以收他 800 一版,他高兴我也高兴。
但你猜怎么着——我突然意识到,我不应该再接这种活了。
这种活以后但凡甲方学会用 GPT Image 2,他自己就干了,根本不需要我。我现在抢的是个”过渡期红利”,过几个月这红利就没了。
我应该接的是”你这个品牌没有视觉体系,给我做一套出来”这种活——AI 不会做战略,不懂你的用户,不知道你想立什么人设。这种活以前我接不下来,因为我交付不出”成套的素材”,成本太高。现在我能接,而且能收 3 万一单。
因为成本环节被 AI 接走了,我能腾出脑子做策略。
AI 没抢我饭碗。AI 把我那些低附加值的活全干了,逼我去接高附加值的活。
我看完这段,回了他一个”流批”。
但其实我想说的是——他描述的这个状态,就是 GPT Image 2 这次升级对整个设计行业的真实影响。
不是”AI 取代设计师”。
是”AI 取代了只会做执行的设计师“。
会用 AI 的设计师反而变得更值钱——因为他们能把过去需要 5 个人 1 周做完的活,自己 1 天做完。客户付的钱可能没少(甚至更多,因为要的是策略不是体力),但分配给”会用 AI 的人”和”不会用 AI 的人”的比例,会发生一次大的位移。
这事儿不新鲜。
当年 PS 普及的时候,传统手绘的画师也经历过一模一样的洗牌。当时也是一群人喊”画师要失业了”,结果呢?画师没失业,不会用 PS 的画师失业了。会用 PS 的画师反而比手绘时代更值钱——因为他们能接的活更多、出图更快、和客户来回沟通的成本更低。
历史不会重复,但会押韵。
只不过这次的速度会快得多。PS 普及用了十年,GPT Image 2 普及可能只需要十个月。
那些还在朋友圈说”AI 永远代替不了人类创造力”的设计师朋友——我不是说你们错。我是说,你们说的那个“AI 代替不了的部分”,正在以肉眼可见的速度变小。
你过去三年画的所有商单,盘一盘,有多少是真正在”创造”,有多少是在”执行”?
执行的部分,明年这个时候,会被甲方自己干掉。
所以回到最开始那个判断
DALL-E 被 OpenAI 自己抹掉,是它第一次承认”画图”这件事它过去没做对。
DALL-E 干了什么?它干了”从 0 画一张漂亮的图”。这件事 Midjourney 干得比它好十倍。所以它输得不冤——它做错了赛道。
GPT Image 2 干什么?
它干”精确改图 + 文字渲染 + 局部编辑”。
这件事 Midjourney 不愿意干——它的人设是审美,不是工具。这件事 Nano Banana 干得没它好——精度还差着 15 分。这件事 FLUX 干不了——它的强项是控制,不是理解。这件事 PS 干这个需要 5 年熟练工。
它没在跟 Midjourney 抢”画图”的活。
它在抢 PS”改图”的活。
而 PS 改图,是 Adobe 一年 200 亿美金营收的命根子。Photoshop 单产品估值 100 亿美金以上的命根子。设计专业本科四年里学得最辛苦的命根子。
GPT Image 2 用一句中文,把这个命根子的入门门槛干没了。
OpenAI 没在跟 Midjourney 打。
它在跟 Adobe 打。
这事儿,Adobe 自己可能还没醒过来。
但你——
如果你是设计师,你最好早点醒过来。
如果你是甲方,你最好趁着设计师还没醒过来,把单子签得便宜点。
如果你是普通人,你最好习惯一件事:从此以后,你看到的每一张照片,先问一句“它是真的吗”。
参考资料
- LMArena Image leaderboard 2026 年 4 月榜单(GPT Image 2 Elo 1512 / Nano Banana 2 Elo 1360)
- 编程指北《2026 年 GPT Image 2 正式发布》:https://csguide.cn/private/gpt-image-2-release.html
- 53AI《Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0》:https://www.53ai.com/news/MultimodalLargeModel/2026042289035.html
- 腾讯新闻《实测完 GPT-Image-2:设计师没完蛋,但我被 AI 骗麻了》:https://news.qq.com/rain/a/20260422A01BD700
- 澎湃新闻 / 对齐 Lab《实测 GPT-image-2,“有图有真相”的时代彻底结束了吗?》:https://www.thepaper.cn/newsDetail_forward_32940820
- 虎嗅《GPT-Image-2:随意做出可作为“证据”的图片,强到让人恐慌》:https://www.huxiu.com/article/4852666
- 图叮 AI《GPT Image 2 高清出图 5 大常见翻车与修复》:https://tudingai.cn/blog/202604/gpt-image-2-hires-5-common-issues/
- LaoZhang AI《Nano Banana 2 vs Midjourney vs GPT Image 1.5 vs FLUX.2 完整对比》:https://blog.laozhang.ai/en/posts/nano-banana-2-vs-midjourney-vs-gpt-image-vs-flux2
- Apiyi《GPT-Image-2 vs Nano Banana Pro 七维深度对比》:https://help.apiyi.com/en/gpt-image-2-vs-nano-banana-pro-which-ai-image-model-wins-en.html
- 302.AI 基准实验室《实测 GPT Image 2》
- OpenAI 官方公告:DALL-E 2 / DALL-E 3 于 2026 年 5 月 12 日正式停止服务
本文由 @悠酱 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




