车载语音助手-技术流程梳理（概览）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

车载语音助手-技术流程梳理（概览）

大鱼

2024-04-09

0 评论 1970 浏览 11 收藏

6 分钟

一次完整的语音交互👇

信号处理→语音识别（ASR）→自然语言处理（NLP）→语音合成（TTS）→对话管理（DM）

一、什么是语音交互

先举例语音中的一个经典案例；

酒吧里灯光耀眼，音乐劲爆，尽管周边的噪音很大，尽管周围的人使用的是各自的母语，英文、西语、等等，此时，如果远处突然有人用中文叫你的名字时，你还是能够马上就注意到他，甚至可以听到他说的内容；这是语音中一个非常经典的现象，称之为“鸡尾酒会效应”，它体现出了人耳在听觉上的天赋异禀，同时也是语音识别中的经典难题。

1. 在这个例子里，语音助手先做了一件事，就是“听清楚”，我们把这个过程，叫做“信号处理”。信号处理的目的是能够让这段声音，尽可能干净，高质量地提取出来，而要做到这个，需要解决很多问题，比如：“声源定位”，在环境中，找到“叫你的名字”的那个“他”的具体位置；“降噪”，将“酒吧的噪音”、“其它人交谈的噪音”都消除干净等等。

2. 当语音助手“听清楚”了，之后就要“识内容”，要识别出声音中的具体内容，这是我们经常说到的“语音识别”，即“声音转写成文字”的过程；比如他说：“现在几点了？”，将音频转换为文字的过程

3. 语音助手知道内容了，就得“想意思”，想“现在几点了？”里的具体意思，这个过程为“语义理解”，即“自然语言理解”；他的意思是：“他期望我反馈”、“现在”、“时间”、“具体时间中的小时”；听懂了，就得“去行动”，得先看下手表里显示的现在时间，然后把小时的数值反馈给他，我们把这个处理过程称为“语义处理”；行动完了，要“想话术”，同样都是告诉他时间，说法会有很多种，可以说“8点”，可以说“现在是2024年4月7日20点12分50秒”，也可以说“刚过8点，咋啦”等等，不同的表达方式，会给人带来不一样的体验和感受，我们称这个过程为“语言生成”；当然，我们也会把“想意思”->“去行动”->“想话术” ->”语言生成“放在一起，都叫做“自然语言处理”。

4. 想清楚怎么表达之后，就要“说出来”，将“文字转换成声音”的过程，我们叫它“语音合成”，之后再通过扬声器播放出来，不同的声音会给人带来不同的感受，比如“星河”和“蜜糖”（小爱同学的音色），两种声音给人的体验是不一样。