车载语音助手——信号处理（一） | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

车载语音助手——信号处理（一）

大鱼

2024-05-06

0 评论 1077 浏览 3 收藏

9 分钟

在语音交互流程中，最具挑战性的是“语音处理”。语音处理的核心目标是提高有效声源的接受质量，那么该怎么提高呢？作者以生活中的案例类比分析，一起来看看吧。

作为语音产品经理，这部分在我们的工作中可能不会涉及到，但是一定要清楚，对于一次语音交互的流程来说，最具挑战性的部分并不是语音和语义本身，而是“音频信号处理”。

音频信号处理的结果，即音频数据的质量，直接影响到最终的语音识别效果。而语音识别的效果，又直接影响到语义理解的结果。这就像一条链，每个环节都紧密相连，缺一不可（没录上人声总不能指望机器无中生有吧）。

每一环到下一环都会导致有效信息的损耗，而我们要做的就是尽可能减少每一个环节的信息损耗。

所以信号处理环节核心目标就是一个：提高有效声源的接受质量。如何做到呢？第一提高有效声源的质量；第二降低干扰声源的影响。

对于影响信号处理的原因，用我们生活中的案例类比👇

1.玩绝地求生如果只戴一只耳机，是不是脚步来源的方向就不确定了？

2.在卫生间唱歌，在KTV包厢里唱歌和在操场上唱歌自己听的效果是不是完全不一样

3.如果课堂上大家都在说话，要听清楚老师讲课的内容是不是很困难？

对应到上面三个例子中“信号处理”的影响因素主要是【硬件】、【空间】、【噪音】。现在看看他们分别可以在哪些地方做文章。

一、硬件音源拾取

1. 麦克风阵列定向收音

和信号处理强相关的硬件，主要是麦克风，一个麦克风很难定位出声音的位置，这里引入一个新的概念，叫“麦克风阵列”，它可以进行”声源定位“，用来确定声源发出的具体方向，甚至是位置（距离）。一般情况下，麦克风数量越多，定“向”的精准度越高。如下图理想汽车麦克风布局图示意，采用四麦克风阵列的方式，这些麦克风的组合在一起共同去完成指定声音的采集，这些采集好的声音，其实就是“信号处理”的“输入”。

（车厂一般采用双麦方案，若支持四音区识别的一般采用四麦阵列方案）

2. 麦克风阵列定向抑制

从原理上看，既然多麦方案可以分辨出声源的方向，那我们就可以在这基础之上，增加“定向抑制”的要求，从而达到，在一个合理角度区域内采集的声音进行增益，对这个区域之外的声音进行抑制。进而可以降低其他区域产生的声音的干扰。

硬件会影响信号处理，但公司用谁的麦克风产品，或者开发什么收音设备不是一个软件产品经理可以影响，并且目前大部分语音公司的基础硬件能力都够用了。所以关于硬件就先分享到这儿。

二、空间降低自身噪音

初中物理讲过声音在传播过程中会出现反射和混响，简而言之就是声音会在一个空间内不断的反射，并且混合其他声音一起反射。比较大，吸音做的比较好的空间可以让人耳分不清原声和回声，但是这些声音是存在，会被麦克风收入影响后续的信号处理。

举例：车载场景，在导航态和音乐播放态下用户说：“打开座椅按摩”。

在这个例子中，麦克风采集到的音频包含：

声源原音：“打开座椅按摩”的原声音频，打开座椅按摩”的回声音频*N
内部噪音：比如车载音乐的音频，导航的播报音频
外部噪音：比如车噪，风噪

麦克风直接懵掉，这么多声音混合在一起，该提取哪一个呢？

这里引入一个新的概念，叫“回声消除”（AEC），主要的工作原理就是将由设备所发出的声音，比如车载音乐，导航播报，告诉“信号处理”，这是我自己说的话，麻烦处理掉。

当然，语音助手的回复也会被一起处理，不然就会出现车载助手说话，然后识别自己的话，再回复自己的话，陷入一个无意义的循环。

补充一下AEC的效果影响因素：音频设备的质量、空间的大小/形状、声源与麦克风的相对位置、背景噪声的影响、AEC算法的复杂度（通常越复杂，需要的算力越高，效果越好）

为什么要补充这个，因为车载的场景尤其复杂，车型，车内空间，车窗，车速，空调，天气等等原因都远影响AEC的效果，每一个AEC的算法都有其最佳的适用范围，所以我们也要知道AEC不是万能的，看到漏网之鱼要知道缘由，并能给出解释

（拓展一下：AEC虽然好用，但是也不能杜绝所有的回声情况，所以你会发现在车载场景，在语音助手被唤醒后，其他声源的音量都会被主动降低，以此来保证用户说话的清晰度；同时在语义处理阶段，也会有拒识的能力介入，将非用户声源或者用户声源的无意义query过滤掉）

三、噪音降低外部噪音

从语音产品的角度，除了声源之外的所有声音都是噪音，信号处理的一个重要职责就是降噪，或者叫噪声抑制等。

以车载场景为例，噪音可以分为自身噪音、天气噪音、路况噪音、车速噪音、风速噪音、环境噪音（城市&乡村）、空调噪音、人声噪音等等。

在这个阶段，信号处理会通过“噪音抑制技术”来减少这些噪音的影响，主要包括：

优化噪音抑制的算法（研发）
调整麦克风阵列（抑制非声源方向噪音）（硬件）
利用深度学习技术训练更好的噪音模型，通过高质量的噪音素材训练提高模型效果（研发+产品）
硬件改进（硬件）

咱们产品可以做的比如说具体的使用场景，提供高数量高质量该场景下的噪音音频，用于模型训练

四、其他自动增益控制（AGC）

当检测到用户的声音忽高忽低的时候，通过AGC对较低语音信号的某些属性进行调整（如音量，音调，清晰度等）来实现。这可以使语音信号在录音质量较差或背景噪声较大的情况下仍然清晰可辨。

以上均是在信号处理阶段可能会影响音频质量的因素，我们不用更深入的去理解背后的原理，但是作为PM，要了解这个阶段的影响因素，才能更好的考虑产品的落地效果。

参考：

《智能座舱颠覆传统，蔚来改变出行体验》湘怡聊汽车

《头疼的音频处理》秋歌

《想知道｜理想ONE的听声辩位》产品想知道

本文由 @大鱼原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

大鱼

智能座舱产品经理

2篇作品 1730总阅读量

运营提需求了没？

11-211807 浏览

运营提需求了没？

手把手教你写好一份【解决方案】

07-058379 浏览

手把手教你写好一份【解决方案】

搜索功能分析：一个好的搜索功能有哪些结构？

04-2712769 浏览

搜索功能分析：一个好的搜索功能有哪些结构？

“老红书”失血，银发族的内容生意还能跑通吗？

01-043867 浏览

“老红书”失血，银发族的内容生意还能跑通吗？

在办公室种“下午茶”，小红书流行“果农”风

07-254803 浏览

在办公室种“下午茶”，小红书流行“果农”风

评论

目前还没评论，等你发挥！