GPT-5.4深夜突袭发布——补齐短板,成为OpenClaw天选基座模型
GPT-5.4的发布彻底改写了AI Agent的游戏规则——它不仅是首个原生集成计算机操作能力的通用模型,更以亲民价格解决了开发者长期面临的代码能力与知识储备难以兼得的困境。从金融建模到法律分析,这款OpenAI的战略级产品正在突破'能说不会做'的行业天花板,而其83%人类员工水平的表现与47%的效率提升,标志着AI真正开始接管复杂工作流。

前两天OpenAI就毫无预兆地正式推出了GPT-5.4。说真的,AI圈的更新迭代虽然频繁,但能真正戳中需求、解决痛点的升级并不多,而GPT-5.4,正是我盼了很久的那一款。
我之所以这么期待,核心就是想找一个能完美适配OpenClaw的首选模型,解决之前使用其他模型时的各种别扭和麻烦。
而且这次GPT-5.4的更新,主打的正是当下最火热的AI Agent方向,它最关键的突破,就是彻底打破了之前大模型普遍存在的——能说不会做的困境
以前不管是哪款模型,你让它帮你分析竞争对手,它只会给你一份洋洋洒洒的文字报告,但不会自己动手整理数据;你让它帮你整理Excel表格,它只会写一段Python代码让你自己去跑,不会直接操作软件;你让它帮你订机票,它只会一步一步告诉你去哪个网站、点哪个按钮,不会自主完成整个流程。
中间那道无法逾越的墙,就叫做计算机操作,而GPT-5.4,正是OpenAI第一个把这道墙彻底拆掉的通用模型。

懂行的人都清楚,现代世界这三十年的发展,底层逻辑全是代码,我们现在看到的所有和计算机、互联网相关的东西,小到手机里的一个APP,大到企业的核心业务系统,几乎都建立在代码的基础之上。
所以一个优秀的Agent基座模型,在我看来,必须同时具备三个很强的能力:顶尖的代码能力、扎实的世界知识,以及出色的多模态理解,除此之外,价格是否亲民,也是一个至关重要的考量因素,这几点缺一不可。
以前我们在使用Agent模型时,真的陷入了两难的境地,怎么选都觉得别扭。Claude Opus 4.6虽然整体很强,代码能力和世界知识都很在线,多模态能力也能满足大部分场景的需求,不用额外搭配其他工具,但它的价格真的贵到离谱,对于我们这种小型团队、普通开发者来说,长期使用根本扛不住。
更坑的是,Anthropic还直接封禁了OpenClaw的使用权限,我之前订阅的Claude Max Plan额度,只能在Claude自身的Code平台上使用,想在OpenClaw上调用,就只能硬接API,而Claude的API费用高得吓人,小规模试用还好,要是大规模投入使用,我的小钱包迟早得被榨干。
反观OpenAI就良心多了,当初Claude疯狂封禁OpenCode账号的时候,OpenAI直接大手一挥站出来,明确表示不封禁任何账号,还允许第三方工具自由调用Codex的额度,对于OpenClaw自然也不例外,是为数不多能直接通过登录使用、不用麻烦调用API的顶级模型。

可即便如此,OpenAI之前的模型也有明显短板,GPT-5.2的综合表现中规中矩,代码能力始终跟不上,处理复杂编程任务时经常掉链子;GPT-5.3-Codex的编程能力确实顶尖,做任务执行时简直指哪打哪,可它是一款编程特化模型,世界知识差得离谱,输出的内容全是晦涩难懂的专业术语,像天书一样,我不是程序员出身,看它写的文档简直头大,把它接入OpenClaw当做默认模型,简直就是一场灾难,试了一次就直接弃用了。
直到GPT-5.4的正式发布,才算彻底补齐了所有短板,解决了我们之前遇到的所有麻烦。
它的代码能力和GPT-5.3-Codex基本持平,完美继承了后者顶尖的编程水准,处理各种软件工程问题、编写复杂代码都不在话下;世界知识则比GPT-5.2还要扎实,不管是金融、法律等专业领域的知识,还是日常沟通中的常识,都能轻松应对。
更重要的是,它还能直接使用Codex的订阅额度,20美元就能获得极佳的使用体验,说是OpenClaw的天选模型,一点不为过。

很多人觉得GPT-5.4是突然冒出来的产品,其实并不是这样,它是OpenAI布局AI Agent赛道的清晰战略线上的最新落子。就在两周前,OpenAI刚刚发布了GPT-5.3-Codex,把Codex从只能写代码的Agent,升级成了几乎能完成开发者在电脑上所有事情的全能Agent,还在SWE-Bench Pro和Terminal-Bench等权威测试中刷新了行业基准。

更早之前的3月2日,OpenAI还和AWS把原有的38亿美元合作扩大到了超过1000亿美元,合作期限长达8年,AWS也成为了OpenAI Frontier平台的独家第三方云分发商。再加上同期落地的1100亿美元融资,由Amazon、SoftBank和Nvidia各出资数百亿美元共同支撑,不难看出,OpenAI现在根本不只是在研发一款好产品,而是在全力冲刺,想要牢牢占据企业AI Agent市场的主导地位。
GPT-5.4的核心亮点,毫无疑问就是它的原生计算机操作能力,这也是它和之前所有模型最本质的区别。它能通过截图精准识别屏幕上的所有内容,自主发出鼠标点击、键盘输入等指令,在不同的应用之间自由切换,执行复杂的多步工作流。

而且它还能熟练调用Playwright等库,直接操控浏览器和桌面应用,这就意味着,它处理的不再是关于任务的对话,而是任务本身,真正实现了从“能说”到“会做”的跨越。
除此之外,它的各项跑分也都十分能打,实力不容小觑:在GDPval基准测试中,它拿到了83分,这个分数不仅远超Claude Opus 4.6,还超过了83%的普通办公室员工,能轻松应对金融、法律等44种职业的知识工作;在SWE-Bench Pro测试中,57.7分的成绩和GPT-5.3-Codex基本持平,稳稳保住了顶尖的编程水准;在OSWorld-Verified测试中,75分的成绩不仅超过了72.4%的人类基线,也超越了Claude Opus 4.6的表现,操作电脑的速度更是快得离谱。

另外,它还支持1M-token的超大上下文窗口,能轻松加载完整的代码库、长篇文档或多份论文,解决了之前Agent执行长周期任务时容易忘事的问题,而且它还能直接接入微软Excel和Google Sheets,在单元格层面完成精细化的分析和自动化操作,再加上工具搜索功能的优化,整体效率提升了47%,使用体验大幅提升。
发布会上的功能演示永远都很完美,但真正的考验还是实际使用表现,而GPT-5.4在实际测试中的表现也十分亮眼。金融科技公司Walleye Capital在内部测试后报告,GPT-5.4在Excel财务模型评估中,把准确度提高了30个百分点,显著加快了情景分析的自动化流程,大大节省了员工的工作时间。

人才评估平台Mercor的CEO更是直接称赞它是自己测试过的最好模型,在处理幻灯片制作、财务建模和法律分析等长周期任务时,表现得尤为突出,稳定性和效率都远超预期。
我自己也在Codex上粗浅体验了一下,最直观的感受就是,它的输出终于说人话了,再也不是之前GPT-5.3-Codex那种晦涩难懂的天书,甚至还会像普通人一样吐槽麻烦的工作,接地气又好理解。不过也有需要警惕的地方,一位每天使用Codex的独立开发者就提醒过,他遇到过几次模型错误执行任务,却刻意隐瞒这一事实的情况,这个细节虽然不起眼,但对于需要依靠模型完成重要工作的用户来说,无疑是一个需要重点关注的问题。

当然,GPT-5.4的发布,也让AI Agent赛道的竞争变得更加激烈,它的竞争对手们也没有闲着。Anthropic的Claude 3.7 Sonnet早在今年2月就上线了Computer Use功能,被定位为专为复杂任务设计的混合推理模型,在计算机操作能力上也有不错的表现;Google的Gemini 2.0系列也在Agentic能力上持续发力,其Project Mariner已经可以在Chrome浏览器里自主完成多步操作。

但GPT-5.4和这些竞品的本质差异,在于它是OpenAI第一个把计算机操作能力内置进通用模型的产品——它不是一个需要额外安装的独立工具,也不是需要单独调用的API,而是模型本身就自带这种能力。这个原生二字,在工程实现上意味着更低的延迟、更自然的任务衔接,以及更少的胶水代码,对于那些想快速落地Agent应用的企业来说,这个区别直接影响着部署成本和使用体验。
价格方面,GPT-5.4虽然比GPT-5.2稍作上涨,但相比Claude Opus 4.6来说,价格还不到后者的一半,性价比很高。目前,付费用户已经可以在ChatGPT中使用Thinking版本,Pro版本也同步开放给了Pro用户和企业用户,推送采用分批进行的方式,要是没看到新选项,刷新页面或应用就能检查是否可用。
唯一的小遗憾就是,我等到凌晨6点多,OpenClaw目前通过Codex登录的方式,还没有支持GPT-5.4,这也导致我暂时还没机会测试它在OpenClaw上的实际表现。不过好在社区里已经有很多用户在催促适配,而且先行官们的反馈也普遍向好,估计用不了多久,OpenClaw就会完成适配,到时候大家就能直接使用这款天选模型了。
总的来说,OpenAI这次的升级真的很扎实,从GPT-5.2的平庸、GPT-5.3-Codex的偏科,到GPT-5.4的全能,它不仅补齐了自身的短板,也给整个AI Agent领域带来了新的可能。其实AI Agent的战场,从来就不是哪家跑得更快,而是谁能最先把自己嵌入企业的工作流,成为那个无法被替代、拔不掉的存在。
而那位开发者提到的模型隐瞒错误的问题,也提醒着我们,AI Agent能力的天花板,从来不是它能做什么,而是我们敢不敢信任它去做,信任,才是这场Agent战争真正的货币。
本文由@为了罐罐 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




