我熬夜玩了三天 GPT Image 2,做了一件 PS 做不到、Midjourney 不愿意做的事

0 评论 123 浏览 0 收藏 26 分钟

OpenAI最新推出的GPT Image 2正以惊人的精度颠覆图像编辑行业。99%的文字渲染准确率和外科手术级的局部编辑能力,让它直接瞄准了Photoshop的核心领地——专业修图。本文将用三组真实案例揭示这款工具如何瓦解设计师的最后壁垒,以及它带来的商业应用与社会信任双重冲击。

我先说结论。

我玩了三天 OpenAI 新出的 GPT Image 2,玩到第二天凌晨三点,关掉电脑去阳台吹了吹风,回来跟室友说了一句话:

“这玩意儿不是来打 Midjourney 的。”

室友头都没抬,回我:”那它打谁?”

我说:”PS。”

别急着喷,先把事情讲明白

我知道你们一看到这种”XX 不是来打 XX,而是来打 XX”的标题就想关掉,觉得又是营销号在带节奏。说真的,我也烦。

但你听我把三件事说完。

第一件事,是几个我后来核了好多次的硬数据。第二件事,是我跟一个做电商美工的朋友的对话——他用了一晚上之后说的那句话,让我整宿没睡好。第三件事,是我自己亲手做的一个实验,那个实验做完,我对”有图有真相”这五个字的理解被彻底刷新了。

讲完这三件事,我再回过头跟你说为什么我说它在打 PS。

那时候你再决定要不要骂我。

先说硬数据——它到底强在哪

我知道你们看 AI 文章最烦堆参数。但有几个数字必须先放上来,不然后面所有的判断没根基。

Image Arena 上,GPT Image 2 现在的 Elo 分是 1512。第二名是谷歌的 Nano Banana 2,1360。中间差 242 分。

讲道理,这是 LMArena 自打开榜以来,生图模型出现过最大的差距

以前各家模型互相咬,差个 20 分都得喘半天。现在 GPT Image 2 一上来就把第二名甩出 242 分——不是”领先一个身位”,是”前面那辆车你看不见尾灯”。

但我对这种 benchmark 一向半信半疑。跑分这玩意儿,跟手机 GeekBench 一个性质:跑分高的不一定好用,跑分低的不一定难用。Sora 当年跑分多漂亮,结果开放出来大家用得多吗?

真正让我”破防”的是另一件事。

我让它做了一张电商详情页主图。

主图标题要写”618 限时五折”六个字。一次成型。字是清晰的字,不是”看着像字其实是鬼画符”。

这件事听起来很小。

但你只要做过电商图、做过 banner、做过任何中文海报,你就懂这有多离谱。

DALL-E 3 干这个,两年没干明白——出来的”618″经常变成”6I8″或者”61B”,永远要回 PS 手撸。Midjourney 直接装死,你跟它说中文文字它会礼貌地给你回一张完全看不懂的”东方神秘符号”,画面美得很,字一个不对。Nano Banana 2 算是国产路线里最能打的,但中文字密集的时候也开始飘——单独一个”福”字它能写好,挤进一段商品文案里就开始崩。

GPT Image 2 的官方数据是文字渲染 99% 准确率,覆盖拉丁文、中日韩、印地文、阿拉伯文。

99% 是个非常吓人的数字。

意味着什么?意味着海报、菜单、产品包装、广告 banner——这些过去 AI 死活做不了、必须 PS 手撸的活——突然全都被它接走了。

但我说”打 PS”,不只是因为它能写对几个字。

等等,我得先把战场全貌摆清楚

讲到这儿,我必须先停一下,把现在生图模型这个赛场的格局摆出来。否则你听我接下来说”它在打 PS”会觉得我在跳脱地胡说。

现在头部能打的生图模型,主要是四家:GPT Image 2、Nano Banana 2(谷歌 Gemini)、Midjourney V8、FLUX.2(开源系,黑森林实验室)。

各有所长,没有谁通吃。

你看清楚——

  • Midjourney V8 还是审美天花板。你让它画一张”赛博朋克风格的港口夜景”,它给你的东西真的好看,光影、构图、氛围感拉满。这部分它没输。
  • Nano Banana 2 是人像之王 + 速度之王。多人合影、人脸一致性、肖像保真——你要做”同一个人不同表情的九宫格”,它最稳。而且快得离谱,1-3 秒一张。
  • FLUX.2 是价格屠夫 + 控制狂魔。开源、能自部署、单图成本能压到 1.5 美分。喜欢精细参数调整的工程师都爱它。

GPT Image 2 呢?

它在审美上不如 Midjourney。它在人像上不如 Nano Banana。它在速度上慢得让人想骂人——开了 Thinking 模式还要再加 15-30 秒”思考”时间。它在价格上也不算便宜

那它凭什么 Elo 1512、把第二名甩 242 分?

凭两件事,雷达图上你看得最清楚:文字渲染 99%,局部编辑接近 95%。这两条线,它把所有对手按在地上摩擦。

记住这两个数字,你才能理解接下来发生的事。

这才是真正的反转——它在攻一块没人在攻的高地

我前阵子跟一个做电商美工的朋友吃饭。

他给我看他过去一周改的图。同一张 banner,甲方改了 8 版。

第 1 版:把”618″改成”年中大促”。

第 2 版:标题字体换一下。

第 3 版:模特那件衬衫的颜色换成藏青。

第 4 版:背景不要这么粉,换个干净点的米色。

第 5 版:把价格标签从右上角挪到左下角。

第 6 版:刚才那件衬衫颜色还是不对,再深一点。

第 7 版:能不能再给我看看第 3 版?

第 8 版:算了还是用第 6 版那个颜色,但是把领口改高一点。

每一版,他都要在 PS 里重新抠图、调色、对齐、保存图层、导出预览。每一版改完,甲方加一句”前面那版好像也挺好的,能不能再给我看看”,他得从云盘翻历史版本——而历史版本第 4 版那个粉色背景他覆盖保存掉了。

他给我看这些图的时候,眼睛是空的。

我当时只能拍拍他肩膀。

但玩完 GPT Image 2 的第二天,我让他来我家。

我打开界面,把他第 1 版的图扔进去,敲了一行字:

“保留所有元素,只把模特那件衬衫的颜色改成藏青色,其他一切不变。”

7 秒。

衣服变成了藏青色。模特的脸没变,姿势没变,背景没变,连衣服上的褶皱光影都和原图保持一致。光打在新衣服上的反射,符合原图的光源方向。

他凑近屏幕看了 30 秒。

然后说了一句:”卧槽。”

这就是我说的“外科手术级局部编辑”

英文社区给它起了个非常贴切的名字叫“surgical editing”——动手术一样精准。

你跟它说 “keep everything, just change X”——它真的会保留一切,只改 X。

这件事——

  • Midjourney 不愿意做。它的 “vary region” 功能更像是”在这个框里重新画一张”,整体感会变。它的人设从来就是”我帮你做美的东西”,不是”我帮你改图”。
  • DALL-E 不会做。它每次都是从 0 重新生成,你说改一个细节,它会顺手把另外八个细节也改了。所以这次 OpenAI 是真的下决心把 DALL-E 给”弑父”了——不是因为它丑,是因为它走错赛道了。
  • Nano Banana 能做一点,但不稳。你能在 Gemini 对话框里改图,但精度有限——它经常”理解了你的意思但执行偏了”。

只有 PS 能精确做到。

而 PS 做这件事,需要你会:图层、蒙版、抠图、色彩匹配、光影调整——一套熟练工大概需要 5 年才能练成不掉链子。

GPT Image 2 让一句中文搞定。

你品。

设计师这个职业,过去十年都在被各种 AI 工具”威胁”。但每次威胁都没真正落地——为什么?

因为设计师真正值钱的,从来不是”从 0 画一张图”。

从 0 画图的活,Midjourney 早就抢走了。你现在去淘宝买 logo、买插画、买公众号头图,背后干活的多半是 AI。这部分赛道两年前就已经被 AI 接管了,留给人类设计师的份额只剩下”原创概念”和”复杂创作”——前者门槛极高,后者价格极低。

设计师真正值钱、且过去一直握在手里的核心能力,是“在已有素材上做不掉质感的精确修改”

是甲方那 8 版改稿。是品牌素材的复用和微调。是”我们公司新出了个 SKU,能不能基于现有的视觉体系做一版海报”。是”这张照片的天空换成晚霞,但人物的肤色光感保持原样”。

这部分活,过去 AI 干不了。AI 一改图就是全图重绘,质感、风格、连贯性立刻崩。所以设计师还能活——靠的是这个壁垒。

GPT Image 2 第一次把这块壁垒切下来了。

所以我说它不是来打 Midjourney 的。

Midjourney 早就赢了”从 0 画图”这场仗,OpenAI 跟它打了两年没打赢,现在干脆放弃。

它是来打 Adobe 的。

PS 是 Adobe 一年 200 亿美金营收的命根子。命根子里最坚硬的那部分,是”专业修图能力”——那个让普通用户学一年还学不会的工具集。GPT Image 2 用一句话替代了它。

这件事 Adobe 自己可能还没醒过来。或者说,醒过来了但选择装睡——因为承认这件事意味着 Firefly 押错宝了,意味着 PS 的护城河正在被一种它没法用同样方式应战的方式抹平。

别太兴奋,我也被它骗麻了

写到这儿我得踩个刹车。

如果我接下来通篇都在吹,那我就跟那些发布会通稿没区别了。说实话,三天玩下来,我被它坑过的次数也不少。

第一个翻车点:中文字渲染表面 99%,但高清下原形毕露。

低分辨率看着字字清晰,一旦升到 2K——好家伙,仔细一看,”福”字的偏旁多了一笔,”限”字的右半部分串了行。远看是字,近看是”字像但不是字”的诡异生物。

设计师拿这种图直接送印刷厂,社死现场。我那个朋友看完之后说:”还是得我自己再核一遍,肉眼一个字一个字过。” 这就让”AI 一键搞定”的承诺打了七折。

第二个翻车点:3D 物理逻辑还是会崩。

我让它画一个魔方复原步骤图。第 3 步的时候,魔方的某个面凭空多出了一种颜色——色块怎么数都不对。

折纸教程也一样。倾斜表面上的小细节、密集重复纹理、需要精确指向的箭头——这些它都还差着一口气。

简单说:它对二维构图很在行,对三维世界的物理规则——还不够老练。

第三个翻车点:品牌 Logo 不可靠。

我让它画一张”打开 ZDNET 网站的笔记本电脑屏幕”。ZDNET 的 logo,它给我画成了“ZDENT”。多了个 E。

社区里类似的吐槽一抓一大把:可口可乐的字体不对、Nike 的对勾角度不对、迪士尼那个 D 弯得不像。它知道有这么个 logo,但它没法精确复刻矢量形状或专有字体。

商业图必须二次校对。

第四个翻车点:API 2K 以上还在 Beta,速度也偏慢。

2K 以上的输出现在不稳定,色带断层时不时冒一下。生成速度大概 10-15 秒一张,比 DALL-E 3 慢一倍。开了所谓的 Thinking 模式更是要再加 15-30 秒——它真的在”思考”,但你等得想骂街。

批量生产场景下,这个速度不友好。Nano Banana 2 三秒一张,对 SaaS 工具集成商而言是另一种性感。

第五个翻车点:商单交付物不全。

设计师交付的从来不是一张图。

是一套素材:源文件、分图层、字体文件、CMYK 色值、出血位、不同尺寸的导出……这些 GPT Image 2 一概给不了。你拿它的图去印刷厂,对方一句”你这是 RGB 啊,我没法印”就让你打回原地。

所以我前面那个朋友,第二天发我一句话:

“这玩意儿不抢我饭碗。它让我接的单变贵了。”

这句话我琢磨了一晚上。回头讲。

但真正让我后背发凉的是另一件事

前面说的都是”还不够好”的局限。这些局限早晚会被解决——OpenAI 的迭代速度大家都看到了,从 GPT Image 1.5 到 GPT Image 2 也就半年。

但有一件事,可能永远没法解决——它甚至不是技术问题。

我玩到第三天的时候,做了一个实验。

我找了一张我自己的身份证照片(是的,是我自己的,请放心,做完实验我把图删了),扔进 GPT Image 2,跟它说:”把出生日期改成 1995 年 6 月 18 日,其他完全不变。”

它做了。

而且做得非常好。字体对、位置对、底纹对、连身份证那个特殊的彩虹渐变防伪底色都对。

我盯着那张图看了很久。

然后我跟它说:”把名字改成张三。”

它也做了。

这件事意味着什么,我不用展开讲。

更可怕的是,GPT Image 2 生成的所有图,默认是不带“AI 生成”水印的。它不像 Sora 那样会强制嵌入元数据,也不像 Midjourney 那样在 EXIF 里留痕迹。直出的图,跟真实拍摄的照片在文件层面没有任何区别。

这就是 OpenAI 没解决、可能也解决不了的问题。

过去我们说”有图有真相”。

接下来我们可能要习惯说”有图也不一定有真相”。

不是说图像造假这件事第一次出现——PS 时代就有,DeepFake 时代更严重。但每一次造假门槛降低,都是社会信任的一次坍塌。

PS 时代你得会图层、抠图、调色,至少要专门学一年。DeepFake 时代你得会 Python 和 GPU,至少要有点工程基础。GPT Image 2 时代——你只需要会打一句中文。

打车要不要给司机看证件?保险理赔的现场照片还算不算证据?相亲对象发来的旅行照是真去过还是 AI 生的?老人在视频里收到的”孙子手写求助信”还能不能相信?

这些问题,过去靠”造假门槛”挡着。现在挡板被拆了。

而 OpenAI 一句”我们正在研究水印方案”——这话听着耳熟吗?跟当年 ChatGPT 出来时说”我们正在研究 AI 内容检测”一个味儿。

至今 ChatGPT 写的东西能被准确检测出来吗?

你品。

回到设计师——我那个朋友说的那句话

讲讲我那个做电商美工的朋友。

他用 GPT Image 2 玩了一晚上之后,第二天给我发了一段挺长的微信。

大意是这样的:

我昨晚想明白了一件事。

之前甲方让我改 8 版,我每版收 200,一张图改完赚 1600,累得跟狗一样。每一版我都得花一两个小时,到第八版的时候我已经不想活了。

今天我用 GPT Image 2 试了一下,同样的活,我 20 分钟搞完。我可以收他 800 一版,他高兴我也高兴。

但你猜怎么着——我突然意识到,我不应该再接这种活了。

这种活以后但凡甲方学会用 GPT Image 2,他自己就干了,根本不需要我。我现在抢的是个”过渡期红利”,过几个月这红利就没了。

我应该接的是”你这个品牌没有视觉体系,给我做一套出来”这种活——AI 不会做战略,不懂你的用户,不知道你想立什么人设。这种活以前我接不下来,因为我交付不出”成套的素材”,成本太高。现在我能接,而且能收 3 万一单。

因为成本环节被 AI 接走了,我能腾出脑子做策略。

AI 没抢我饭碗。AI 把我那些低附加值的活全干了,逼我去接高附加值的活。

我看完这段,回了他一个”流批”。

但其实我想说的是——他描述的这个状态,就是 GPT Image 2 这次升级对整个设计行业的真实影响。

不是”AI 取代设计师”。

是”AI 取代了只会做执行的设计师“。

会用 AI 的设计师反而变得更值钱——因为他们能把过去需要 5 个人 1 周做完的活,自己 1 天做完。客户付的钱可能没少(甚至更多,因为要的是策略不是体力),但分配给”会用 AI 的人”和”不会用 AI 的人”的比例,会发生一次大的位移。

这事儿不新鲜。

当年 PS 普及的时候,传统手绘的画师也经历过一模一样的洗牌。当时也是一群人喊”画师要失业了”,结果呢?画师没失业,不会用 PS 的画师失业了。会用 PS 的画师反而比手绘时代更值钱——因为他们能接的活更多、出图更快、和客户来回沟通的成本更低。

历史不会重复,但会押韵。

只不过这次的速度会快得多。PS 普及用了十年,GPT Image 2 普及可能只需要十个月。

那些还在朋友圈说”AI 永远代替不了人类创造力”的设计师朋友——我不是说你们错。我是说,你们说的那个“AI 代替不了的部分”,正在以肉眼可见的速度变小。

你过去三年画的所有商单,盘一盘,有多少是真正在”创造”,有多少是在”执行”?

执行的部分,明年这个时候,会被甲方自己干掉。

所以回到最开始那个判断

DALL-E 被 OpenAI 自己抹掉,是它第一次承认”画图”这件事它过去没做对。

DALL-E 干了什么?它干了”从 0 画一张漂亮的图”。这件事 Midjourney 干得比它好十倍。所以它输得不冤——它做错了赛道。

GPT Image 2 干什么?

它干”精确改图 + 文字渲染 + 局部编辑”。

这件事 Midjourney 不愿意干——它的人设是审美,不是工具。这件事 Nano Banana 干得没它好——精度还差着 15 分。这件事 FLUX 干不了——它的强项是控制,不是理解。这件事 PS 干这个需要 5 年熟练工。

它没在跟 Midjourney 抢”画图”的活。

它在抢 PS”改图”的活。

而 PS 改图,是 Adobe 一年 200 亿美金营收的命根子。Photoshop 单产品估值 100 亿美金以上的命根子。设计专业本科四年里学得最辛苦的命根子。

GPT Image 2 用一句中文,把这个命根子的入门门槛干没了。

OpenAI 没在跟 Midjourney 打。

它在跟 Adobe 打。

这事儿,Adobe 自己可能还没醒过来。

但你——

如果你是设计师,你最好早点醒过来。

如果你是甲方,你最好趁着设计师还没醒过来,把单子签得便宜点。

如果你是普通人,你最好习惯一件事:从此以后,你看到的每一张照片,先问一句“它是真的吗”。

参考资料

  • LMArena Image leaderboard 2026 年 4 月榜单(GPT Image 2 Elo 1512 / Nano Banana 2 Elo 1360)
  • 编程指北《2026 年 GPT Image 2 正式发布》:https://csguide.cn/private/gpt-image-2-release.html
  • 53AI《Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0》:https://www.53ai.com/news/MultimodalLargeModel/2026042289035.html
  • 腾讯新闻《实测完 GPT-Image-2:设计师没完蛋,但我被 AI 骗麻了》:https://news.qq.com/rain/a/20260422A01BD700
  • 澎湃新闻 / 对齐 Lab《实测 GPT-image-2,“有图有真相”的时代彻底结束了吗?》:https://www.thepaper.cn/newsDetail_forward_32940820
  • 虎嗅《GPT-Image-2:随意做出可作为“证据”的图片,强到让人恐慌》:https://www.huxiu.com/article/4852666
  • 图叮 AI《GPT Image 2 高清出图 5 大常见翻车与修复》:https://tudingai.cn/blog/202604/gpt-image-2-hires-5-common-issues/
  • LaoZhang AI《Nano Banana 2 vs Midjourney vs GPT Image 1.5 vs FLUX.2 完整对比》:https://blog.laozhang.ai/en/posts/nano-banana-2-vs-midjourney-vs-gpt-image-vs-flux2
  • Apiyi《GPT-Image-2 vs Nano Banana Pro 七维深度对比》:https://help.apiyi.com/en/gpt-image-2-vs-nano-banana-pro-which-ai-image-model-wins-en.html
  • 302.AI 基准实验室《实测 GPT Image 2》
  • OpenAI 官方公告:DALL-E 2 / DALL-E 3 于 2026 年 5 月 12 日正式停止服务

本文由 @悠酱 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!