AI 语音交互：巨头和创业公司们都在做什么 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

AI 语音交互：巨头和创业公司们都在做什么

张艾拉

2026-01-07

0 评论 1327 浏览 0 收藏

9 分钟

从OpenAI的实时电话AI到苹果的语音指挥棒，语音交互正迎来爆发式创新。大厂们纷纷将语音能力嵌入核心场景，而初创公司则在细分领域打造极致工具。本文将拆解语音交互的最新战场，看AI如何让对话从机械应答进化到自然交互。

前几天写了一篇关于语音交互的文章（交互革命：AI 硬件别再死磕“语音”了），大家有不少讨论，于是我特意找了一些聚焦语音交互的 AI 公司和产品，想和大家一起看看，现在做语音交互的公司们都在做什么。

01 大厂：卷场景，争入口

1. OpenAI：让 AI 像真人一样接电话

OpenAI 最近的动作非常快，他们把实时语音对话提升到了核心战略位置。

打断式对话：现在的对话模型不再是你一句、我一句的死板对讲，你可以在它说话时随时打断、纠正，它的反应速度和真人几乎没区别。

接管电话网络：最关键的动作是他们发布了支持 SIP（会话发起协议）的 Realtime API。通俗点说，开发者可以直接把 OpenAI 的语音能力接进公司的电话交换机里。

这意味着，你接到的客服电话、预约电话，背后可能就是一个反应极快、逻辑清晰的 AI 智能体。

2. 苹果：语音变成指挥棒

苹果在 Apple Intelligence 苹果智能里，把语音能力切得很碎，塞进了最常用的沟通场景：

通话与录音的一条龙服务：现在的 iPhone 不仅能录音，还能实时转写成文字，并自动生成摘要。你打完一个半小时的电话，它直接给你列出三个待办事项。

AirPods 的实时翻译：戴上耳机，对方说外语，你听到的是中文，几乎没有感官上的延迟。

快捷指令：以前复杂的“快捷指令”需要手动编排，现在你只要动动嘴，Siri 就能直接调用这些能力帮你完成跨 App 的操作。

3. 谷歌：一边搜索，一边聊天

谷歌把 Gemini Live 的能力深度嵌入到了搜索里，搞出了一个Search Live：

追问式搜索：语音搜索不再是“问一个问题，给一个答案”。你可以边聊边找，比如：“帮我找下周去大理的机票。”

搜出来后直接追问：“要下午出发的，价格不要超过一千。”它会根据之前的对话内容持续更新搜索结果。

4. 亚马逊：Alexa 终于要变聪明了

亚马逊推出了下一代Alexa+。这次他们很明确，Alexa+ 不再只是控制灯泡的开关，而是要走能聊天、能办事的路线。

它能记住你的生活习惯，处理更复杂的家务指令，比如“帮我订一份常吃的那个披萨，要在半小时内送到”。

5. 微软：Copilot 成了 Windows 的声卡

微软开始在 Windows 系统里大规模测试“Hey Copilot”唤醒词。他们想让语音成为办公的常驻入口。

不管是写 PPT 还是查表格，你不需要到处点菜单，直接说话，Copilot 就能在后台帮你把活儿干了。

02 初创公司：拼效率、抢速度

Product Hunt 2025 年专门做了“AI 听写应用”的 Orbit Awards，我梳理了上面风头最劲的几家语音初创公司。

1. Wispr Flow：想让你彻底扔掉键盘

它是做什么的：一个系统级的语音输入工具。

规模：刚拿到 8100 万美元融资，估值约 7 亿美元。

怎么用：你在电脑上任何能打字的地方（微信、邮件、Word），按下快捷键直接说话。

特点：它最厉害的地方在于“自动整理”。你说话的时候可能有口音、有废话、有重复，但它转出来的文字是逻辑严密、排版工整的。它就像一个全能速记员+文案编辑，目前已经有大量用户用它替代了 70% 以上的键盘输入。

2. Aqua Voice：专门为写长文设计

它是做什么的：针对长篇文档、剧本、报告的语音写作工具。

怎么用：你坐在椅子上，像讲故事一样把内容说出来。

特点：普通的语音转文字很难处理分段和语气。Aqua Voice 擅长捕捉你的情绪和语气，自动帮你判断哪里该分段，哪里是重点。它不是简单地记录，而是像个影子作者一样，帮你把零散的思想变成有可读性的长文章。

3. Superwhisper：主打隐私和本地化

它是做什么的：一个运行在本地设备上的极速语音转写工具。

怎么用：适合医生、律师、财务等对数据安全极度敏感的职业。

特点：它的模型是跑在你自己电脑里的（比如 Mac 的本地芯片），不需要联网。这意味着你的谈话内容永远不会传到云端，安全性极高，而且转写速度极快，几乎是话音刚落，文字就出来了。

4. Known：声音驱动的新社交

它是做什么的：一个基于语音匹配的社交平台。

规模：最近刚获得 9700 万美元融资。

怎么用：抛弃了传统的“看照片、左右划”模式。

特点：它让 AI 识别用户的声音特征、语调和表达逻辑，帮你找“聊得来”的人。他们认为声音包含的信息比文字和照片多得多。

对比过去，语音交互也在进化：

容错率变高了：以前你要适应机器，说话得字正腔圆；现在是 AI 适应你，你随便乱说，它能听懂意思并帮你整理好。
延迟消失了：现在的实时 API 让对话延迟降到了毫秒级，你感觉不到是在和机器说话。
有了记忆和上下文：它知道你刚才说了什么，也知道你现在在处理什么任务。

我们也看到目前的语音交互市场，已经分成了两条明显的路径：

大公司在做底座：把语音接进系统、接进搜索、接进电话网，让它无处不在。
创业公司在做工具：针对写文档、防泄密、甚至社交等具体场景，把效率做到极致。

语音交互确实更符合用户习惯和认知，但我也同样期待下一个交互的 iPhone 时刻。

以上，祝你今天开心。

作者：张艾拉公众号：Fun AI Everyday

本文由 @张艾拉原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

张艾拉

公众号「 Fun AI Everyday」& AI 出海App「爱卜」

157篇作品 287746总阅读量

2022年，飞书们困于商业化

01-117182 浏览

2022年，飞书们困于商业化

TikTok电商，征服美国市场

11-062702 浏览

TikTok电商，征服美国市场

产品经理必备的猥琐发育之道（售前篇）

05-1010601 浏览

产品经理必备的猥琐发育之道（售前篇）

拉取小红书达人投放金额前1000名品牌，我发现了这几点现象

06-154244 浏览

拉取小红书达人投放金额前1000名品牌，我发现了这几点现象

万字长文复盘2022：那些逆势崛起的公司们

01-174216 浏览

万字长文复盘2022：那些逆势崛起的公司们

评论

目前还没评论，等你发挥！