语音交互产品的认知

AI时代,如何更快入行抢占红利得高薪?前阿里巴巴产品专家带你15天入门AI产品经理。了解一下>

因为用户是结果导向的,无论我们怎么吹嘘自己的产品有多智能,响应速度有多快,理解能力有多强,什么网络神经中枢、神经网络引擎,只要用户在使用过程中没感觉到它的智能点,一切貌似都白搭。

在目前的AI产品体系中,广为人知的主要是三大方向,分别是:图像(即人脸识别)、智能推荐(类似于各种推荐引擎产品,如今日头条等)以及语音交互

图像很好理解,去年很火的Face ID就是基于此而设计,早期的话像是很多公司会采用的“面部识别打卡”、脸部识别登录设备等也都是相关的应用。而智能推荐则是通过分析用户的日常行为、操作等获得用户画像,从而分析出用户的喜好,为用户生成并推荐其感兴趣的内容。说“抖音”一刷就停不下来,很重要的一个原因就是因为它推荐的内容多半都是用户感兴趣的内容,这就依赖于其智能的算法。

那至于“语音交互”,它究竟是什么?

语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。生活中最常见的就是手机内置的各种“语音助手”:魅族的小溪、IPhone的siri以及小米的小爱等,都是相关的产品或者功能。

一.“语音交互”的定义

“语音交互”可以这么来理解:人类设备通过自然语言完成了信息的传递

在这里我们把它分成了简单的四个内容:

1. 人类与设备

语音交互,属于“人机交互”的一种,是人类与机器之间的沟通、联系,比如和手机,和电脑,甚至“智能家居”概念中的和电器。“语音交互”的对象是人与设备,而非人与人,如微信,其实就是用户通过微信与另一个用户形成沟通,这自然就不属于“人类与设备”的范畴。

2. 自然语言

是指一种自然地随文化演化的语言,如汉语、英语、法语等,但如为计算机而设置的语言,即为“人造语言”。自然语言是人类交流和思维的主要工具,对于自然语言的处理也是人工智能中最为困难的问题之一。

“语音交互”是需要人发出声音从而与设备产生互动,比如设闹钟,我们喊“Siri,给我设置一个明天早上八点的闹钟”,这就是通过自然语言与设备完成了一次互动,而不是传统的“打开闹钟-设置时间”这样的手动操作。因此很重要的一点就是“自然语言”,我们通过设备定了闹钟,然后它发出了声音,看起来我们是和设备完成了一次互动,但它发出的不是自然语言,而是铃声,即使你是用“人声”来充当闹铃,那也不是我们在“语音交互”中所定义的“自然语言”。

3. 信息的传递

即我们通过自然语言与设备完成了某次互动,比如定闹钟、查导航等,这之间一定是发生了某次信息从我们这边流转到了设备,之后再又回到我们这边,一个双向传递的过程。只是有时候设备给的回应也许是语言,也许是执行任务。

二. 交互方式的发展

人与设备的交互方式大致经历了三个阶段的演变:PC时代移动时代以及AI时代

PC时代,我们主要靠鼠标、键盘的外接设备进行输入,比如鼠标双击某个图标打开对应的软件,要打字也需要敲击键盘才能一个一个字符的实现,这样子的模式很笨重,不灵便。

之后过渡到了移动时代,现在几乎人手一台手机,想要点开什么app,主要手指轻轻一点即可开启,此时我们进行交互的方式变成了触摸。所以为什么手机发展到如今,十余年的时间过去了,依旧停留在“触摸”上,那是因为与传统的外接设备来实现输入相比,它本身已经做到了跨越,而其下一个阶段又还在伊始阶段,因此也无法完全被取代。

等什么时候“手机”变成“嘴机”了,也许就发生变革了。

下一个时代也就是“AI时代”,也就是我们所在讨论的“语音交互”时代。科幻电影大家看得不少,很多科幻电影之所以精彩就是因为它展现了未来科技可能的面貌。比如“钢铁侠”中,Tony与其研制的人工智能“J.A.R.V.I.S”就存在着及其精彩的交互。(感兴趣的自行搜索视频呦~)

但目前“语音交互”时代,其实还是主要停留在“语音输入”这一内容上,即我们对设备发出一个指令:给我定闹钟、告诉我怎么去等等,然后设备通过执行再输出相应的内容,这个是死板的,或者说是程序化的。设备只会给你定你所选择的时间点的闹钟,它也只会告诉你怎么去,诚然,这是我们想要的,但不够人性化。

当真正地实现“交互”时,我们所期待的场景应该是:我说我要去XX地,设备读取指令,经过分析之后反馈:那个地方不远,平时走路过去就行,但现在外面下着大雨,我可以为你叫一辆出租车,估计8分钟左右就能到达。

顺着这个思路,我们再聊聊“语音交互”的一个发展历史。

三. “语音交互”的发展历史

主要也是三个阶段:单向收听单向输入双向交流

1. 单向收听

人人都经历过,如10086的电子助手。我们在拨打10086时,给我们回应的肯定不是人工客服,而是电子语音:“查询话费请按1,套餐及流量办理请按2”。只有在电子语音无法解决用户的需求时,才会在最后说:“如需人工帮助请按0”。

这种是被动的,用户只能被动地接受已经预先设置好的服务,它无法更改,更无法对用户在电话那头的话语做出任何回应,唯一能够令它产生变化的就是用户按动相应的数字键。

2. 单向输入

最常见的应用就是各种输入法的“语音识别转文字”,也就是通常所说的“语音输入法”。通过说话让应用识别,之后以文字的形式转出。很多时候可能一段长对话需要我们敲键盘敲好久,随着这一技术的成熟发展,我们直接说出这段话,之后往往只需要修改几个标点符合与错别字就能很快地完成一段文字的输入。

但其最大的缺点依然是无法形成互动,仍旧是单向的,只不过是从输出者变成了输入者。这种时候它更像是一种工具,当我们不想打字的时候才会用,毕竟当我们用设备进行语音转文字处理时,它不会自动反馈