AI 语音交互:巨头和创业公司们都在做什么

0 评论 681 浏览 0 收藏 9 分钟

从OpenAI的实时电话AI到苹果的语音指挥棒,语音交互正迎来爆发式创新。大厂们纷纷将语音能力嵌入核心场景,而初创公司则在细分领域打造极致工具。本文将拆解语音交互的最新战场,看AI如何让对话从机械应答进化到自然交互。

前几天写了一篇关于语音交互的文章(交互革命:AI 硬件别再死磕“语音”了),大家有不少讨论,于是我特意找了一些聚焦语音交互的 AI 公司和产品,想和大家一起看看,现在做语音交互的公司们都在做什么。

01 大厂:卷场景,争入口

1. OpenAI:让 AI 像真人一样接电话

OpenAI 最近的动作非常快,他们把实时语音对话提升到了核心战略位置。

打断式对话:现在的对话模型不再是你一句、我一句的死板对讲,你可以在它说话时随时打断、纠正,它的反应速度和真人几乎没区别。

接管电话网络:最关键的动作是他们发布了支持 SIP(会话发起协议)的 Realtime API。通俗点说,开发者可以直接把 OpenAI 的语音能力接进公司的电话交换机里。

这意味着,你接到的客服电话、预约电话,背后可能就是一个反应极快、逻辑清晰的 AI 智能体。

2. 苹果:语音变成指挥棒

苹果在 Apple Intelligence 苹果智能里,把语音能力切得很碎,塞进了最常用的沟通场景:

通话与录音的一条龙服务:现在的 iPhone 不仅能录音,还能实时转写成文字,并自动生成摘要。你打完一个半小时的电话,它直接给你列出三个待办事项。

AirPods 的实时翻译:戴上耳机,对方说外语,你听到的是中文,几乎没有感官上的延迟。

快捷指令:以前复杂的“快捷指令”需要手动编排,现在你只要动动嘴,Siri 就能直接调用这些能力帮你完成跨 App 的操作。

3. 谷歌:一边搜索,一边聊天

谷歌把 Gemini Live 的能力深度嵌入到了搜索里,搞出了一个Search Live

追问式搜索:语音搜索不再是“问一个问题,给一个答案”。你可以边聊边找,比如:“帮我找下周去大理的机票。”

搜出来后直接追问:“要下午出发的,价格不要超过一千。”它会根据之前的对话内容持续更新搜索结果。

4. 亚马逊:Alexa 终于要变聪明了

亚马逊推出了下一代Alexa+。这次他们很明确,Alexa+ 不再只是控制灯泡的开关,而是要走能聊天、能办事的路线。

它能记住你的生活习惯,处理更复杂的家务指令,比如“帮我订一份常吃的那个披萨,要在半小时内送到”。

5. 微软:Copilot 成了 Windows 的声卡

微软开始在 Windows 系统里大规模测试“Hey Copilot”唤醒词。他们想让语音成为办公的常驻入口。

不管是写 PPT 还是查表格,你不需要到处点菜单,直接说话,Copilot 就能在后台帮你把活儿干了。

02 初创公司:拼效率、抢速度

Product Hunt 2025 年专门做了“AI 听写应用”的 Orbit Awards,我梳理了上面风头最劲的几家语音初创公司。

1. Wispr Flow:想让你彻底扔掉键盘

它是做什么的:一个系统级的语音输入工具。

规模:刚拿到 8100 万美元融资,估值约 7 亿美元。

怎么用:你在电脑上任何能打字的地方(微信、邮件、Word),按下快捷键直接说话。

特点:它最厉害的地方在于“自动整理”。你说话的时候可能有口音、有废话、有重复,但它转出来的文字是逻辑严密、排版工整的。它就像一个全能速记员+文案编辑,目前已经有大量用户用它替代了 70% 以上的键盘输入。

2. Aqua Voice:专门为写长文设计

它是做什么的:针对长篇文档、剧本、报告的语音写作工具。

怎么用:你坐在椅子上,像讲故事一样把内容说出来。

特点:普通的语音转文字很难处理分段和语气。Aqua Voice 擅长捕捉你的情绪和语气,自动帮你判断哪里该分段,哪里是重点。它不是简单地记录,而是像个影子作者一样,帮你把零散的思想变成有可读性的长文章。

3. Superwhisper:主打隐私和本地化

它是做什么的:一个运行在本地设备上的极速语音转写工具。

怎么用:适合医生、律师、财务等对数据安全极度敏感的职业。

特点:它的模型是跑在你自己电脑里的(比如 Mac 的本地芯片),不需要联网。这意味着你的谈话内容永远不会传到云端,安全性极高,而且转写速度极快,几乎是话音刚落,文字就出来了。

4. Known:声音驱动的新社交

它是做什么的:一个基于语音匹配的社交平台。

规模:最近刚获得 9700 万美元融资。

怎么用:抛弃了传统的“看照片、左右划”模式。

特点:它让 AI 识别用户的声音特征、语调和表达逻辑,帮你找“聊得来”的人。他们认为声音包含的信息比文字和照片多得多。

对比过去,语音交互也在进化:

  1. 容错率变高了:以前你要适应机器,说话得字正腔圆;现在是 AI 适应你,你随便乱说,它能听懂意思并帮你整理好。
  2. 延迟消失了:现在的实时 API 让对话延迟降到了毫秒级,你感觉不到是在和机器说话。
  3. 有了记忆和上下文:它知道你刚才说了什么,也知道你现在在处理什么任务。

我们也看到目前的语音交互市场,已经分成了两条明显的路径:

  1. 大公司在做底座:把语音接进系统、接进搜索、接进电话网,让它无处不在。
  2. 创业公司在做工具:针对写文档、防泄密、甚至社交等具体场景,把效率做到极致。

语音交互确实更符合用户习惯和认知,但我也同样期待下一个交互的 iPhone 时刻。

以上,祝你今天开心。

作者:张艾拉 公众号:Fun AI Everyday

本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!