OpenAI 在抢一个比 ChatGPT 更大的入口
当一通教育咨询电话让你分不清是真人还是AI,GPT-Realtime-2正在悄然改变人机交互的底层规则。OpenAI最新发布的语音模型不仅实现了1.12秒的极速响应,更通过端到端架构保留了人类对话中的微妙细节。这场从键盘到麦克风的入口争夺战,正在重构客服、医疗、金融等行业的服务范式。

上周白天,我打电话给一家在线教育机构咨询课程。电话那头是个女声,语速不快、会停顿、偶尔还有点轻微的”呃”——那种你在真人客服身上很熟悉的迟疑感。她问我孩子几年级,问平时哪个时段方便,说”您先说说具体情况,我帮您推荐一下”。
整通电话大概五分钟,交流很顺畅。
挂掉之后,我回想了一下刚才通话里的几个细节:她记住了我在第二分钟提到的”孩子数学弱”,第四分钟主动绕回来说了一句”考虑到您刚才说的数学基础问题,我建议选这个方向”。
我惊讶的发现,这是一套接入了语音大模型的客服系统——人工客服不会记这么清楚,也不会在五分钟的通话里自动检索并串联前面说的细节。
恰巧,OpenAI 在 2026年5月7日正式发布了 GPT-Realtime-2。所有人都在讨论这个模型多厉害、推理多强、能翻译多少种语言。
但我想说的是:OpenAI 这次发布的根本不是一个音频模型。它在抢的,是一个比 ChatGPT 大十倍的入口。
人和机器对话,正在从打字回到说话。谁拿下这一层,谁就是下一个微信级别的存在。
先看 OpenAI 这次到底放了什么
2026年5月7日,OpenAI 一口气扔出三个模型,同时把已经预告了大半年的 Realtime API 从 beta 转成正式版。

三个模型分工明确,但 GPT-Realtime-2 是绝对的主角。
上下文窗口从 32k 翻到 128k。这不是一个无聊的参数。32k 大概是一通 10 分钟的电话,128k 是一场 40 分钟的会议。它的意思是这个模型可以一口气听完你跟它聊半小时,记住你十五分钟前提到的细节,然后接着往下说。客服、咨询、面试、家教,所有真正有价值的语音场景,都在这个时长之上。
五档推理等级,从 minimal 到 very high。低档模式下,第一个字的音频在 1.12 秒内吐出来。超高档慢一点,2.33 秒,但能处理更复杂的多步推理。
读到这里你可能没什么感觉,那我换个说法。Siri 从你说完话到回答你,平均要 1.8 秒。这个数字 OpenAI 在 1.12 秒就做完了,而且回答的不是”我没听懂你的意思”,而是真的回答。
基准跑分上是断崖式的提升。Big Bench Audio 这个测语音推理的考卷,GPT-Realtime-2 拿了 82.8%,前一代是 65.6%。MultiChallenge 这个测指令跟随的,从 v1.5 的 34.7% 直接干到 48.5%。
熟悉模型迭代的人一眼就能看出来——这不是常规升级,是换代。
最关键的新东西,叫 preamble。当模型要去调工具、查数据、思考一下的时候,它会先说一句”好的,我看一下”,或者”稍等,我帮您查一下日历”。过去所有语音助手要么瞬间回答,要么沉默——沉默就是死亡,用户会以为它崩了。GPT-Realtime-2 会跟你说”嗯,让我想想”。这不是细节,是分水岭。
然后看它的架构,砸碎了过去十年的所有规矩
要明白这件事的分量,得先看过去的语音 AI 是怎么搭起来的。
过去十年所有语音助手——Siri、小爱、天猫精灵、智能客服——都是同一个套路:

这叫三段式流水线。你说一句话,要被走三遍,每一遍都丢一些东西。
第一遍丢的是情绪。语音转文字只关心”你说了什么”,不关心”你怎么说的”。你说”我很好”三个字,可能是真的好,也可能是憋着火说的,转成文字后这层信息消失了。
第二遍丢的是上下文。大模型拿到的只是干巴巴的文字,不知道你停顿了三秒、叹了口气、声音在抖。
第三遍丢的是真实感。合成出来的声音机械、平直、像在念稿。所有人都听得出来”这是机器”。
这就是为什么过去十年所有”AI 语音助手”听起来都差不多——不是技术不够好,是架构本身就不可能好。
GPT-Realtime-2 砸碎了这个架构。它是端到端的——声波直接进去,声波直接出来,中间没有文字这个翻译层。

意味着模型听到的不是”你说了什么”,而是”你怎么说的”。意味着你咳嗽一下,它会停下来等你。这就是为什么我开头那通教育咨询的电话,让我一度以为是真人——不是因为模型聪明,是因为架构变了。
这才是真正的反转:为什么 OpenAI 现在死磕这个
如果你只把 GPT-Realtime-2 当成一个”更好的语音 API”,你就错过了真正的故事。
讲一个简单的事实:过去 12 个月,OpenAI 在文本模型上的迭代速度明显慢下来了。GPT-5 出来之后,公众讨论度断崖式下跌。从 GPT-4 到 GPT-5,跑分高了 10%,但用户体感上”差不多”。
那 OpenAI 现在押什么?押语音。这不是赌博,是必然。
你看人机交互的演进线:

每一次形态切换,都会把上一代的入口干掉,重新分配整个互联网的流量。AI 时代的入口现在还是对话框——你打字给 ChatGPT、打字给 Claude、打字给豆包。但打字给 AI 是过渡形态。
过去十几年,所有大公司都试图把语音变成入口,结果全部失败。苹果 Siri 押了十几年没成气候,亚马逊 Alexa 烧掉 250 亿美元,小爱、小度、天猫精灵都退化成了只能开关灯的”语音遥控器”。
为什么失败?因为之前的语音助手是基于”指令”的——你必须说得清楚、说得标准,它才能听懂。GPT-Realtime-2 是基于”对话”的——你可以说半句话停下来想想,它会等你;你可以中途改变主意,它能跟上。
苹果做了十五年没做成的事,OpenAI 用一个 API 干完了。
我的判断是:18 个月之内,会有一个”语音版 ChatGPT”级别的产品出来。不一定是 OpenAI 自己做,可能是某个用 Realtime API 搭的创业公司。它的形态会非常简单——一个按钮,按住说话,松开收回答。谁先做出来,谁就拿到下一代的入口。
这个入口一旦打开,重写的是整个行业的玩法
先看企业侧已经在发生的事。
房产平台 Zillow 在接入语音大模型之后,用户接通成功率从 69% 跳到 95%,+26 个百分点。过去用传统语音菜单,10 个打电话来的客户,有 3 个走完不到一半就挂了;现在 10 个里有 9.5 个能完成意图。这 26% 背后,是成交、佣金、营收的直接提升。
对中国市场来说,这个数字同样成立,甚至更夸张。想一下你最近一次打银行客服的体验:等待音乐 30 秒、语音菜单 4 层、说了半天被转到人工、人工再问一遍你的身份证号。全程 8 分钟,解决一个改密码的需求。
换成语音大模型接入之后,这条路径是:开口说”我想改密码”,模型说”好的,请先告诉我您的姓名和预留手机号”,30 秒结束。
这不是未来,今天国内已经有几家银行和保险公司在做这个方向的 PoC。差的只是像 GPT-Realtime-2 这样足够好的底座模型落地到国内场景的时间问题。
所有”一通电话能解决的事”,都在被重写。客服第一通、销售外呼、前台预约、在线教育的课程咨询、医院挂号分诊、政务热线答疑——任何一个之前需要”人接电话”的场景,现在都可以用极低的成本搭一个能 7×24 接通、永远耐心、永远在线的语音 agent。
更重要的是,所有”想服务客户但请不起客服团队”的小公司,第一次能用得起这种能力了。一个小诊所可以有自己的 24 小时预约助手,一家律师事务所可以有自己的初诊前台,一个本地商家可以有自己的接线客服。
过去十年,云计算让小公司能买得起服务器;过去五年,SaaS 让小公司能买得起销售工具;接下来五年,语音模型会让小公司能买得起”7×24 的接线员”。这是基础设施级别的解锁。
对 AI 公司和开发者来说
语音 agent 需要的不只是一个好模型——它需要针对特定行业的 prompt 工程、流程设计、异常处理、与 CRM/ERP 的对接。医疗预约、法律咨询初筛、教育课程顾问、金融产品解释、本地生活服务——每一个方向,做深了都是一门好生意。先做出来的人,有机会成为那个行业的语音 agent 标准。
写在最后
回到开头那通教育咨询的电话。那套系统还不够完美,偶尔会有一点点不自然的停顿。但它已经能让我在整通电话结束之前都没有确定”这是机器”。
GPT-Realtime-2 发布之后,这个”不自然的停顿”会消失。
这个转变不是技术细节,是基础设施级别的洗牌。打字给 AI 的时代刚开始两年半,说话给 AI 的时代正在 2026 年 5 月这个时间点起跑。
每一次入口切换,都会重新分配权力——也会诞生一批新的大公司。PC 时代分给了 Google、Amazon。手机时代分给了苹果、字节、微信。AI 打字时代正在分给 OpenAI、Anthropic、字节豆包。
AI 说话时代会分给谁?可能是某个今年刚开始做医疗语音 agent 的小团队,可能是把银行客服这条链路做深的产品,也可能是把语音 agent 工具化、平台化的新基础设施。
最确定的一件事是:这扇门刚刚打开。
GPT-Realtime-2 不是这场战争的终点,是发令枪。
本文由 @阐述你的梦 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




