声网姚光华:做AI产品的这一年,我学会了扔掉“年度规划”
2024年的夏天,一场关于WebRTC与生成式 AI 的PPT任务,开启了45天的疯狂冲刺,最终诞生了第一款To B的Realtime API。这段经历不仅颠覆了对硅谷工作文化的认知,更揭示了AI时代产品开发的残酷法则:速度、稳定性和实验精神。本文将深入探讨对话式AI的生死线、技术路线选择背后的战略思考,以及在技术狂飙中如何保持人性的深刻洞察。

前段时间的2025AI产品大会中,声网AI产品线负责人姚光华老师认为,下一代AI助手必须具备“人格化”特征。 通过情感识别、多轮对话记忆,现代AI正在获得接近真人的“活人感”。但他同时强调,必须建立统一的体验基准,让这种“人味儿”质量可控、体验可预期。本文为嘉宾现场分享精华内容,分享给大家:
2024年的夏天,上海热得反常,据说是90年来最热的一个夏天。
八月的一天中午,老板的电话来了。“Colin,停下你手头所有的事,”他在电话那头说,“帮我写一个PPT。”
没有解释,只有紧迫。我推掉了下午和晚上所有的安排。那个通宵,我只写了三页PPT:关于通信协议的三次迭代,关于开源WebRTC与商业RTC的系统性比较,以及一张产品架构大图——关于如何让一个大模型开始“说话”。
凌晨五点,会议结束,我回到家。这并非终点,而是接下来45天疯狂加班的起点。那45天的极限冲刺,换来的是国庆长假第一天,我们与OpenAI共同面向世界推出了第一款To B的Realtime API。从那天起,开发者终于可以在自己的应用里,真正接上对话式智能体。

这次经历留给我最深的印记,不是技术参数,而是一种认知的崩塌与重建。站在2025年的路口,我意识到:地球是圆的,硅谷也可以是卷的。
01 硅谷没有“松弛感”
如果你在工作的强度上有K线图,会发现一个惊人的事实:所有AI时代的产品和研发,在2024年末到2025年初,K线都是拉满的。我们天天都在加班。
2024年的圣诞节,OpenAI连开了12天的发布会;今年的春节,DeepSeek在陪全中国人民聊天。那个曾经被我们视为“WLB”(工作生活平衡)典范的硅谷,变了。世界上最优秀的那一波人,已经彻底放弃了所谓的松散感。因为所有人都看到了一张通向未来的、确定性的船票。

当未来是确定的时候,犹豫就是最大的成本。
02 iPhone时刻:不是发布,是触碰
对于产品经理而言,什么是“对话”?如果不谈技术,只谈体验,智能体的“iPhone时刻”到底是什么?
大众认为是初代iPhone的发布会。但我认为,真正的iPhone时刻,是乔布斯用手指在屏幕上放大照片的那一瞬间。那是人类第一次用自己的器官,直接与数字世界交互。
回顾交互的历史,我们其实一直在画圆:从API时代开发者用代码交互,到GUI时代用界面交互,再到Prompt时代用文本交互。今天,我们终于可以用声音与智能体交互。未来加上视频和数字人,连小朋友也可以和虚拟生命体对话。

交互的终点,是回到我们最原始的能力——对话。
对话不仅仅是界面,它本来就是人类最古老的操作系统。
03 别听错,别失控,别让人等
我们在南美洲的一个电商客户那里,看到了一个真实的黑色幽默。一个用户非常生气地对着我们的智能体吼道:“为什么你是一个人,却装成AI跟我对话?我要见你的主管!”
对于普通用户,人与AI的界限正在模糊。但在工程实践中,现在的Voice Agent生死线只有三条:别听错,别失控,别让人等。

人类对延迟的感知是残酷的。面对面聊天,我说完你回复通常在200毫秒以内,这是“活人感”的基准;电信通话的金标准是400毫秒;而在线交流加上网络传输,通常在600毫秒左右——在这个区间里,人类其实已经做了“我在打电话”的心理补偿。

但现在的Voice Agent动辄延迟一秒以上。我每天早上问小爱同学天气,默认要等3秒。这时候,我在等的不是一个“对话”,而是一个系统的“反应”。我们已经把延迟压到了650毫秒,但这还不够,还得继续压。
至于技术路线,技术圈虽然在吵“端到端”(End-to-End)很性感,但在真正大规模商用的战场上,级联(Cascade)才是王者。
原因很简单:当用户投诉体验问题,端到端是黑盒,你根本不知道哪里出了问题;而级联模型,我看一眼日志就知道是听错了还是说错了。更现实的是,如果你的产品明天要出海中东,用级联换个模块就能支持阿拉伯语;用端到端?对不起,请从头开始训练模型。

在人机对话里,稳定性本身就是最高级的用户体验。
04 像做实验一样做产品
与OpenAI合作的过程,也是我重塑产品观的过程。传统的组织运行方式在AI时代已经失效了。
我们的产品从3月发布到10月底,迭代了9个版本;到今天,已经迭代了11个版本。核心在于快速决策机制——只要一个决策不是“单向门”(做了就无法回头),那就尽管去做实验。
对于在座的产品经理,如果你们正在写明年的年度规划,我的建议是:别写了。

我们的团队从不要求长期的产品规划。我们以6个月为锚点对齐大方向,只做2个月的规划,列出每两周的交付清单。每日发布,双周承诺,两个月路线图。这就是AI组织的生存法则。三人成军,就可以快速做一个实验。成功了纳入规划,失败了快速掉头。
如果可以用实验来验证,就不必等待共识。
05 Stay Human
最后,我想聊点非技术的话题。
木头姐(Cathie Wood)的报告说,AI情感陪伴产品的空间将有5000倍的增长。未来的AI陪伴,不会局限于手机屏幕,只要有麦克风和扬声器,任何设备都可以是一个陪伴者。
但我有一个做人机交互的朋友,最近把自己的社交媒体昵称改成了“Stay Human(做个人吧)”。
这让我触动很大。

过去两年,我们谈论了太多的AI,太多的Agent,太多的模型参数,以至于我们对人类自身的关注反而变少了。
AI会重塑世界,而内观会重塑我们。在理解Agent的同时,别忘了理解我们自己。
毕竟,技术是为了让我们活得更像人,而不是更像机器。
- 目前还没评论,等你发挥!

起点课堂会员权益




