AI时代的门票——智能语音交互

2 评论 12676 浏览 75 收藏 10 分钟

AI时代即将到来,而语音识别便是入场券。说出一句话,也许你可以直接听到想要的结果,也许机器会直接执行你的命令,也许……这无限延伸的可能性,便是 AI 的魅力。

还记得2年前,度秘刚发布的时候,心情激动的我没怎么思考就洋洋洒洒扯了一通《度秘:你好,521号机器人为您服务》。记得那时才大三,感觉百度发布的度秘机器人好牛逼,天文地理无所不知。但那时的度秘也仅仅是个加强版的微软小冰,只不过是连接了更多的服务,因为百度在这方面有着天然的优势。那时的度秘虽然看起来也很全能,但从未自然的融入实际生活场景中,因为究其本质,它是以拟人对话形式整合线下服务与功能。

而如今,亲身体验了这场技术变革带来的改变,不禁感慨,AI时代即将到来,而语音识别便是入场券。说出一句话,也许你可以直接听到想要的结果,也许机器会直接执行你的命令,也许……这无限延伸的可能性,便是 AI 的魅力。

新一代交互形式:语音识别

时光飞逝,短短两年,互联网行业日新月异,经历了AR、VR的变革,又见证了阿法狗的崛起。人工智能这个词似乎离我们越来越近。通常来讲,每一次全新时代的到来,都是因为一个传统的形式被颠覆。

比如,多年前我们的手机硬件由非智能机变为智能机,交互方式由物理按键变为手势操作。并伴随着网速的提升,从而由PC互联网时代逐渐进入移动互联网时代,而这一次,变革便是从语音识别开始。

艾媒数据的调研结果

可以看出,语音识别高居第一,其次是智能家居。这两方面都有一个共同点在于:它们都是两种全新的交互形式。

语音识别意味着将无形的声音转化为有形的执行信息,而传统交互形式是通过文字,或是通过肢体动作来完成命令的执行。

智能家居意味着将家庭场景下的电器通过网络的构建与连接,形成物联网,将之变得更加自动化,随用户的需求而自然切换状态。

亚马逊Echo系列产品

而现在,无论是国外的亚马逊、谷歌还是国内的小米等生产智能硬件的公司,都开始极力打造家庭场景下的人工智能,而语音,便是这种人工智能交互形式的突破口。

完整的语音交互过程应该分三个步骤:听清、听懂、满足。

  • 听清:当用户的声音从麦克风输入时,应有拾音器记录用户声音,并准确的进行识别,将最终结果反馈给AI大脑。而在这个过程中,需要软硬件以及算法去处理所有声音,取其精华,弃其糟粕,最终将真正的指令记录。
  • 听懂:当大脑拿到结果后,要对其进行解析,将语音转为文字,并进行语义分析,同样需要强大的算法和机器学习能力,不断去纠错。哪些是命令词,哪些是内容词,要进行区分,最终普通的一句话要被拆分为命令、内容等相关类型词。
  • 满足:当一句简单的话被AI大脑理解,接下来的就是满足用户,用户如需要查询,便去告诉他相应内容。用户如需要执行动作,便去完成整个动作流程。

而事实上,这三个重要步骤,对于一家普通公司,基本是不可能完成的任务。

它要求既要有扎实的语音识别技术,又要有牛逼的语义理解能力,最后还需要有强大的内容数据去做支撑。

也难过,只有百度这样的超级大厂,才能充分整合资源,将整个语音交互过程都涉及到。

家庭场景下的语音交互

在中国,如果想要普及一种变革,最好的场景是家庭环境,因为这种场景下,用户的使用习惯,喜好会彻底的释放和表达,是一种最自然,无压力的表现状态,且这种场景又属于高频场景,覆盖范围广。

家庭下的语音唤醒场景请

不仅仅是图中这些场景,今天在百度的开发者大会会场上见到了各种家庭场景下的硬件设施,当它们一旦搭载了语音交互的系统,便摇身一变,成了具有语音操控的智能家居。

对智能冰箱说:

“宫保鸡丁怎么做”,冰箱上的显示屏开始播放宫保鸡丁教学视频。

对智能电视说:

“我想看个赛车类电影”,电视上显示《速度与激情》系列影片。

对智能音箱说:

“我要开party,放个激情澎湃的音乐吧”,音箱播放《Sugar》

………….

智能硬件加上语音交互,已经构建成了物联网。相信在不久的将来,搭载了语音交互系统的智能家居,都可以听你的话,你说所说的每个指令,都会直接影响到当前家居的运行状态。甚至可以对其动作进行组合,形成物联网+语音交互。

小米智能硬件生态圈

在我看来,最有可能率先实现该场景的就是小米。

小米近几年基本完成关于智能硬件生态圈的布局,覆盖了家庭场景下大部分高频使用的硬件设施,并将其与手机连接在一起,使用户通过手机可以快速的管理。本次小米电视4的发布,其中一个亮点便是:将家居中的每一个智能硬件部分都和电视,手机控制端进行连接。最终实现最完美的智能家居生活场景:对着电视或遥控器说一声:关闭空调、开启吸尘器等一切指令,通过语义识别,连接家居,执行命令一系列动作,将智能贯彻到底。

开放的AI未来,不止于此

曾经VR技术被鼓吹的神乎其神,最终还是因硬件成本居高不下以及体验难以提升沦为AI的泡影产物。而语音识别不应如此,百度的duer OS提供一整套语音识别的解决方案,给了许多硬件公司产品智能化的希望。

这样一来,智能硬件的成本便可以达到有效把控。在整个语音交互部分,百度提供现成的SDK,并可以配套终端应用,提供开发套件。无论事实如何,宣传效果确实达到了。若如此,接下来,语音交互能力便不再是小公司,小产品可望不可即的能力了。而最终市场上经过一批残酷的淘汰,最终留给用户的,便是最优秀的软硬件结合的产物。这无论是对用户还是整个行业,都是一个良好的发展趋势。

以一个开发的心态迎接人工智能时代,科幻电影里的场景,即将到来。这一刻,我想到了《人工智能》,《机械姬》,《黑客帝国》。

对于未知的好奇心,要远远大于恐惧。

#专栏作家#

王伟华,微信公众号:夜漫产品(learnerwwh),一只略带文艺情怀的产品汪,擅长社交,资讯领域产品,心理学爱好者,目前正处于知识体系搭建阶段。

本文原创发布于人人都是产品经理,未经许可,不得转载。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 简单来说 就是日常语境中语义的智能拆分…

    来自四川 回复
    1. 对,算是其中一个步骤

      回复