基于大屏的语音交互平台竞品分析报告:从闭环问答到开放交流

不懂技术怎么做产品?15天在线学习,补齐产品经理必备技术知识,再也不被开发忽悠。了解一下>

作为人工智能中最为典型的应用交互系统,智能语音交互系统将会成为人工智能发展的一个重要体现,在未来的生活中扮演着越来越重要的作用。

  • 分析目的:了解语音助手的市场现状以及趋势,分析竞品产品定位,异同点,深化对产品的理解。
  • 分析范畴:讯飞语点机顶盒,小米电视,小爱同学,小度DuerOs电视伴侣。
  • 分析方法:智能语音交互技术解析,智能语音市场分析,竞品主要产品功能,竞品体验。

一、语音交互技术

语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递,一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程。

基于大屏的语音交互平台竞品分析报告(初稿)

  • 语音识别(Automatic Speech Recognition):简称ASR,是将声音转化成文字的过程。
  • 自然语言处理(Natural Language Processing):简称NLP,是理解和处理文本的过程。
  • 语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程。

智能语音交互系统作为人工智能最为典型的应用之一,可以将其技术拆分为如上图部分。

在实际的应用场景中,对智能语音交互系统将提出特定的需求,本报告集中于家庭大屏场景下的交互分析。

基于大屏的语音交互平台竞品分析报告(初稿)

值得注意的是,不同公司在智能语音技术的优势各有不同。其中,以行业龙头科大讯飞为代表,基于其深耕行业20载,在语音识别,声纹识别,语种识别有着较大的优势。

二、语音助手的市场现状

1. 全球智能语音市场分析

据统计数据显示:2017年全球智能语音美元,同比增长30%。随着移动互联网,智能家居,汽车,医疗等领域的应用带动智能语音产业规模持续快速增长,预计2019年全球智能语音市场规模将突破170亿美元。

基于大屏的语音交互平台竞品分析报告(初稿)

2. 全球智能语音市场份额

在全球智能语音市场份额占比中,Nuance全球市场占有率排名第一,市占率达到31.6%;其次为谷歌,市场占有率为28.4%;排名第三的是苹果,市占率为15.4%;其后为微软以及科大讯飞分别占有8.1%以及4.5%的市场份额。

基于大屏的语音交互平台竞品分析报告(初稿)

3. 中国智能语音市场分析

在人工智能和物联网技术的发展带领下,智能家居蓬勃兴起,互联网巨头及新兴创业公司从硬件、技术、系统解决方案等不同角度进行布局,智能家居系统初步显现。

预计2019年,中国智能家具市场规模将超1900亿,虽增长规模有所放缓,但市场规模将保持稳定增长,2020年将突破2000亿元。

基于大屏的语音交互平台竞品分析报告(初稿)

4. 语音交互的市场规模以及市场格局

目前,中国智能语音市场的主要份额被科大讯飞、百度以及苹果分割。

数据显示:目前为止,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44%;其次为百度,市场占有率为28%;排名第三的是的苹果,市占率为7%;其后为Nuance以及小i机器人占有均为3.0%的市场份额(前瞻产业研究)。

基于大屏的语音交互平台竞品分析报告(初稿)

5. 中国家庭大屏产业

中国电视机出货量在经历2011年到2016年的持续正向增长后,2017年⾸次出现负增长,这⼀情况将在 2018年有所好转。

同时,互联⽹电视机出货量占⽐连年稳定攀升,预计2018年将达到88%,全年出货量近 4000万台。2018年上半年,受世界杯效应影响,销量同⽐增长3.6%,但受降价影响,整体营业额下降2%,综合测算全年销量同⽐增长3%。

基于大屏的语音交互平台竞品分析报告(初稿)

以电视机为代表的大屏设备在智能家居中扮演着举足轻重的作用,作为智能家居最为主要的交互方式——语音交互,智能语音交互系统有着巨大的市场规模和发展潜力,本报告聚焦于基于大屏的智能语音交互系统进行分析。

相较于移动端的场景不同,大屏设备的主要使用场景在室内,集中于家庭。目标客户和使用场景的独特性,使得智能语音应用在该场景的使用具有特殊性。

例如用户在近景中,我要看语文。这里“看”理解成学还是点播,意味着完全不同的跳转页面。这对于语义理解提出了较高的要求。

大屏设备作为智能家居概念的重要组成部分,也是语音交互的重要入口必然成为市场必争的重要领域。

当我们转向用户思考IOT时代万物互联,意味着你身边的任何设备都是联网的,你可以在任何地方、任何时间和任何设备交互(IOT的4A原则),所以IOT将大大消弱了手机当前的交互中心地位。

当云端开始普及之后,未来计算平台的前台,是一系列形态、功能各异的智能硬件,这些硬件或大或小,有屏或无屏,近场或远场,位置固定或随身移动。虽然千差万别,用户却希望在任何一台设备上的交互状态可以云端同步至其他设备,用户可能随时在设备间切换,但希望交互进程和数据流不被中断、持续向前(集群智能)。

那么,什么样的交互能够支撑这种切换需求、适配各类设备而又保证体验的一致性呢?

从这个角度思考,我们很容易就能发现语音交互的独特优势。

6. 语音交互的优势

  • 解放双手、双眼、双腿,接触空间限制,近场,远场可交互;
  • 指向明确,语义直达目标,缩短使用路径;
  • 自然简单人性化,学习门槛低;
  • 可以1对1,也可以1对多;
  • 对设备要求低。

二、竞品对比分析概览

1. 竞品简介

基于大屏的语音交互平台竞品分析报告(初稿)

小爱同学是小米科技于2017年7月26日推出的智能语音交互系统,适用于智能音响及其他智能设备,建构于小爱开放平台上,可以通过连接进入米家物联网系统控制所有的米家智能设备。

小度电视伴侣是百度旗下的一款智能硬件产品,内置DuerOS系统。从产品的概念来看,其以 Soundbar 的形态融入高性能 4K 机顶盒、智能音箱的功能,其三合一的创新产品形态,为客厅影音场景带来了简洁的一体性解决方案。

依托全语音交互大屏吸引,小度电视伴侣可实现利用语音打开设置中的蓝牙开关、调整图像设置等等。如“打开WiFi”“打开设置”等等,或者根据界面显示的内容,用语音命令指定播放视频内容,如“播放第三个”“这个人是谁”等等。此外,小度电视伴侣还可以通过语音控制多款智能设备,如“打开落地灯”“打开空调”等等。

讯飞语点是由科大讯飞推出的智能语音交互系统, 在2015年,科大讯飞重新定义了万物互联时代的人机交互标准,发布了对人工智能产业具有里程碑意义的人机交互界面——AIUI。

2016年,围绕科大讯飞人工智能开放平台的使用人次与创业团队成倍增长。截至2017年1月,讯飞开放平台在线日服务量超30亿人次,合作伙伴达到25万家,用户数超9.1亿,以科大讯飞为中心的人工智能产业生态持续构建。

2. 目标客户

本报告针对基于家庭大屏的智能语音交互系统的竞品分析,故家庭大屏用户为本报告产品的目标用户。

现阶段,主流大屏视频接入主要分为DTV,IPTV和OTT三种类型,截⾄2018年Q2,DTV、OTT的中国城镇家庭⼤屏保有量均超过2亿户,IPTV⽅⾯保有量达到1.42亿。其中,中国移动魔百和在⼴东省有约1000万的⽤户成功转为IPTV⽤户,移动OTT盒⼦并⼊IPTV阵营可能成为趋势,那么有望在短期内使IPTV总⽤户也跃升⾄2亿户。

受限于数据和资料,本报告对不同类型的大屏终端用户不作区分,以所有大屏用户作为目标用户作为分析对象。

基于大屏的语音交互平台竞品分析报告(初稿)

大屏用户性别分布比例:

基于大屏的语音交互平台竞品分析报告(初稿)

大屏用户年龄分布比例:

基于大屏的语音交互平台竞品分析报告(初稿)

大屏用户学历分布比例:

基于大屏的语音交互平台竞品分析报告(初稿)

基于现有数据可以分析得出,大屏用户的用户分布较为平均。

与传统的人工智能产品以年轻人、高学历、男性为主要目标用户不同;基于大屏的智能语音交互系统用户分布更为平均和广泛,这种特点对具体场景的需求设计提出的新的要求。

目标用户群体画像不具有代表性,使得产品在设计和开发时需要更多的关注于场景而不是用户,从该场景下的通用需求出发对产品进行设计和迭代。

三、评价指标

本报告基于智能语音交互系统使用场景,在大屏语音交互外结合了车载语音交互系统评价的标准,制定出对于大屏语音交互的性能评价体系。

智能语音交互系统的性能需满足以下指标要求,其中唤醒率和误唤醒率应针对支持语音唤醒功能的语音交互系统。

1. ASR

1.1 字准确率

该指标用于评价语音交互系统输出的人类可是别的文本信息正确率。对于中文普通话语音交互系统,该项指标的评价分类如表1。

1.2 识别成功率

若语音交互系统在既定的识别轮数内完成了语音识别任务,则此次语音识别成功。语音识别成功与否应该兼顾语音交互系统动作的可靠性问题。

若语音交互系统共进行了R次特定的语音识别任务,其中SR次识别成功,FR次识别出现误操作(包括但不限于 未在既定的识别轮数内完成,未完成识别前提前退出,识别无响应)。则:

识别成功率= SR/R * 100%

误操作率 = FR/R * 100%

识别成功率 + 误操作率 = 1

1.3 平均响应时间

该指标用于评价语音交互系统对语音识别任务的响应速度,离线语音交互系统的平均响应时间应≤2S;在线语音交互系统的评价响应时间应≤3S。

1.4 唤醒率

若语音交互系统共进行了W次唤醒,其中SW次成功唤醒。则:

唤醒率 = SW/W * 100%

该指标用于评价语音交互系统在有背景噪音情况下,对语音唤醒操作的正确响应情况。

1.5 误唤醒率

若车载语音交互系统在T小时内出现FW次误唤醒。则:

误唤醒率=FW/T 次/小时

该指标用于评价语音交互系统在有背景噪音的情况下,对语音唤醒操作的错误响应情况。

2. TTS

主观测试(自然度),以MOS为主:

  • MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好;
  • ABX,普通用户评测(主观)。让用户来视听两个TTS系统,进行对比,评测出声音的自然度。

3. 交流体验

3.1 用户任务达成率(表征产品功能是否有用以及功能覆盖度)

比如智能客服,如果这个Session最终是以接入人工操作为结束的,那基本就说明机器的回答有问题,或者重复提供给用户相同答案等。

3.2 对话交互效率

比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等(可能和打断,One-shot等功能相关)。

3.3 根据对话系统的类型分类

1)闲聊型

  • CPS(Conversations Per Session,平均单次对话轮数)。值得注意的是此指标为微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标。
  • 相关性和新颖性。与原话题要有一定的相关性,但又不能是非常相似的话;
  • 话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句话就会给个负分。

2)任务型

  • 留存率:虽然是传统的指标,但是能够发现用户有没有形成这样的使用习惯;留存的计算甚至可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如之前百度高考,教考生填报志愿,就是这么弄的。
  • 完成度(即前文提过的“用户任务达成率”):由于任务型最后总要去调一个接口或者触发什么东西来完成任务,所以可以计算多少人进入了这个对话单元,其中有多少人最后调了接口。
  • 相关的还有(每个任务)平均slot填入轮数或填充完整度。即完成一个任务,平均需要多少轮,平均填写了百分之多少的槽位slot。

3)问答型

  • 最终借助人工操作的比例;
  • 重复问同样问题的比例;
  • “没答案”之类的比例。

整体来说,行业一般PR宣传时,会更多的提CPS,其他指标看起来可能相对太琐碎或不够高大上。

但是,实际工作中,可能CPS更多是面向闲聊型对话系统;而其他的场景,可能更应该从“效果”出发。比如,如果小孩子哭了,机器人能够“哭声安慰”,没必要对话那么多轮次,反而应该越少越好。

4. 语料自然度和人性化的程度

目前对于这类问题,一般是使用人工评估的方式进行。这里的语料,通常不是单个句子,而是分为单轮的问答对或多轮的一个session。

一般来讲,评分范围是1~5分:

  • 1分或2分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容;
  • 3分:基本可用,问答逻辑正确;
  • 4分:能解决用户问题且足够精炼;
  • 5分:在4分基础上,能让人感受到情感及人设。

另外,为了消除主观偏差,采用多人标注、去掉极端值的方式。

四、产品功能对比一览

基于大屏的语音交互平台竞品分析报告(初稿)

可以看出智能语音交互系统不仅仅局限于对智能家居设备的语言控制,不同厂家的语言交互产品都进行了大量的功能开发,包括但不限于生活管理服务、游戏、生活百科、增值服务。如

何挖掘出该场景下用户的深度需求,抓住场景下用户的痛点变成了各家厂商需要重点考虑的问题。

五、产品体验细节对比

1. 功能体验

根据影响用户选择语音助手线上调查问卷的结构,语音识别准确度,操作便捷,输入速度快,功能多样,词库丰富等因素,对比分析部分产品体验细节。

本报告针对语音交互系统中常用的业务场景进行了测试,通过对具体功能的体验对比进一步了解。

基于大屏的语音交互平台竞品分析报告(初稿)

基于上述功能体验,讯飞语点在语音合成失真度和反应时间上具有一定的优势,这主要得益于科大讯飞在语音技术上的技术积累。

小度在语音交互时,更加侧重音乐搜索功能。在“刘德华的无间道”和黄梅戏的交互中,小度均直接跳转进QQ语音界面。

在开放式聊天中,小度的体验感较差。无法理解用户意图时,采用了相同的语音反馈使得用户的使用欲望降低。小爱同学针对开发式问题,有着不同的反馈。

在知识百科场景下,小度体现出了较强的优势。该优势得益于百度在搜索引擎中的长期积累。

2. VUI体验

(因机顶盒配置问题,无法体验)

六、总结分析

  1. 智能语音交互系统依然存在着发展空间,竞争进入了白热化阶段。以本报告的三款产品为例,讯飞语点,小爱同学和小度分别拥有自身的发展优势。但值得一提的是,暂时未出现一款绝对领先的产品。各款产品都拥有自己优势和劣势,特别地在某些特定的场景中体验分化极大。
  2. 现阶段,语音交互系统中语音识别环节暂无较大差距。尽管在地方性语言识别上科大讯飞拥有着较大优势,由于其使用场景较为单一且目标用户数量有限,难以形成产品优势。
  3. 在NLP阶段,由于各款产品技术背景的差异,使得其在不同场景下存在独特的优势。例如:讯飞语点的方言识别,小爱的米家产品控制,小度的语音检索。但在识别语音意图时,与真实的对话依然才存在着较大差距。
  4. 搭载于大屏上的智能语音交互系统,由于其场景较为复杂,仍然需要一段时间进行发展和完善。

关于语音交互系统未来的猜想

智能语音交互系统在IOT和5G的技术的不断发展和普及下,将会拥有越来越大的发挥空间和巨大的市场需求,智能语音交互系统也将会从闭环问答式的产品逐步走向开环交流式的智能产品。

作为一款智能产品,智能语音交互系统将逐渐实现情感化的功能,从一个智能系统到拥有情感需求的智能机器人。可以想象的是,智能语音交互系统将会成为人工智能发展的一个重要体现,并在未来的生活中扮演着越来越重要的作用。

参考文献

《语音交互的三驾马车:ASR、NLP、TTS》[http://www.woshipm.com/ai/2620327.html]

《2018年智能语音行业发展现状及趋势分析》[https://bg.qianzhan.com/report/detail/459/190203-4d8a0a01.html]

《2019 中国家庭大屏产业生态发展白皮书》

《2018年中国智能语音企业案例研究报告》

《TAF-WG7-AS0041-V1.0.0 2019 智能产品语音识别测评方法 车载语音交互系统》

《填槽与多轮对话 | AI产品经理需要了解的AI技术概念》。

 

本文由 @方阿贝🦌 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!
评论
欢迎留言讨论~!