6个方面对比分析：手势、触控和语音三大交互方式

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

6个方面对比分析：手势、触控和语音三大交互方式

迷思特圆

2019-10-11

0 评论 12753 浏览 56 收藏

17 分钟

手势交互、触控交互和语音交互是当下主要的3种交互方式，本文笔者结合可用性评估指标和自己调研使用中的发现，从6个角度对这3种交互方式进行了分析和对比，供大家参考。

吃小龙虾的时候，最怕需要用手机，脱完手套还得擦手。遇上重要来电，也管不了那么多了，油乎乎的手直接往屏幕上按，按了半天，才发现手机根本识别不到被层层辣油浸染过的手指头。(ノ=Д=)ノ┻━┻

随着技术发展，这种烦恼可以消失了。近日华为发布了Mate30，其中出现了一种相对新颖的交互形式——隔空手势操作。

当你在吃螃蟹满手腥味时，当你在剥小龙虾满手都是油时，都依然可以无障碍地使用手机。

图片来源：华为官方宣传片截图

其实，这种交互方式并非首次出现在手机终端里。在今年年初的MWC上，LG已推出了同样性质的Air Motion。

这些产品能够落地，说明手势识别技术在不断发展，当前已达到投入实际应用的标准。

图片来源：LG官网

逐渐进入大众视野的手势交互，经典高效的触控交互，还有在IOT领域表现亮眼的语音交互，构成了当下主要几种交互方式。

我将结合可用性的评估指标和自己在调研、使用中的发现，从以下几个角度对这三种交互方式进行对比：

适用场景
交互效率
准确性与容错性
学习成本
情感互动
隐私性

需要说明一点，本文中的手势交互是指通过计算机视觉识别出的手势动作，无需和实体进行接触，类似于Mate 30的隔空手势操作或者HoloLens的手势操作。而我们日常使用的对ios等进行控制的手势动作，在此文中和按钮按键一起，统一归入触控操作内。

一、适用场景

我们应针对不同场景的特征去选择相应的交互方式。对适用场景理解可以从以下三方面入手：

1. 物理层面

语音交互需要用户能进行听和说；触控交互需要用户能和设备进行接触；手势交互需要用户的手能自由移动。但在一些场景下，用户并没有条件进行上述交互行为。

以医生为例，可能在他已经对双手进行严格消毒后，仍需要查看病人的相关资料。但是他无法确保，所有的屏幕、X光片、档案等都是干净的。这时如果能通过非接触的手势或语音进行操作，就不会有被污染的风险。

还有像开车的过程中，有些路段是非常嘈杂的，语音交互可能无法很好地识别对话内容；低头使用触控屏又有些危险。这时采用手势交互，就能在相对安全的基础上完成用户的指令。

选择交互形式的关键，是要回归到使用场景中，采用各场景内的最优解。

2. 心理层面

进行语音交互时，用户需要把指令说出来。当只有自己一人时，说些什么可能都没有关系。但当人多起来时，尤其是不熟悉的人多起来时，当众说一些东西会让用户觉得自己很傻。

此外，公共空间内，涉及到相对私密的内容时，用户也不想这样公之于众。就像蜘蛛侠在得到语音控制的智能眼镜Edith后，也只能躲在车的角落里小心翼翼地说话。

此外，当人正在与他人进行交流时，使用语音进行交互是一件打断性非常强的事情。例如几个人聊天聊得正嗨，想要播放音乐或调解灯光来营造气氛，突然来一句“小张同学，播放音乐”会显得很突兀。这种时候，如果打个响指就能达到目的，会方便自然许多。

大家可能都有在电视内进行搜索的经历，电视上的键盘操作起来非常麻烦，用着用着就有想摔遥控器的冲动。现在很多电视支持语音检索，在精细搜索方面，比之前方便了许多。

以上的这些尴尬、紧张、烦躁等情感，都与选择了错误的交互形式相关。

3. 文化层面

不论你是上海口音还是广东口音，启动iPhone时按的都是开机键。但在进行语音交互时，可能就会遇到一些麻烦，因为多数都是以普通话为基准。

在这种地方口音非常混杂的情况下（例如面向老年群体或是口音重的地区），语音交互的实用性就会大幅降低。

此外，在不同国家，手势的含义也可能截然不同。例如最近被恶搞出种族歧视含义的ok手势，在大部分地区还是代表着相对正面的含义。因此在进行设计时，也需要考虑到不同的文化背景。

二、交互效率

交互效率可以从空间和时间两个维度进行考虑。

1. 空间

触控交互是需要某种实体承载的，用户必须要接触到设备才能发出指令。当设备离用户有一定距离时，则必须要先靠近才能进行操作。

例如当遥控器不在手边时，就必须过去拿到它才可以进行操作。而且懒惰是人的天性，躺在沙发上时就会觉得走几步去拿遥控器也是件麻烦事。

手势交互和语音交互则在空间上更为自由，只要在有效交互区域内就可以（即摄像头能“看清”，麦克风能“听清”），不需要用户亲身接触到设备。

当用户离实体设备有一定距离时，这两种方式是更为高效的。

2. 时间

当触控产品就在手边时，触控操作需要的时间可能是三种交互方式中最短的。而且像苹果还开发了“捷径”功能，人为地进一步精简操作路径，缩短交互时间。

目前的语音交互都需要一些唤醒词。相较于其他交互形式，唤醒设备+清楚表达指令的过程通常会花费更多的时间。

有团队将唤醒词更短作为产品卖点，个人感觉这也从侧面反映了唤醒这段较长的交互流程可能是智能音箱的痛点之一。之前有科技新闻报道，已有团队能做到无需唤醒词，只通过分析说话人的语音语调语气，来判断是否唤起设备。

但是就目前的技术而言，尤其在稍复杂的场景下，无唤醒词的做法可能风险比较大。

手势交互中，指令性的内容可以分为组合型动作和独立动作（我自己定义的(ง •̀灬•́)ง）。我们可以将操控对象和指令合在一个手势动作中，也可以拆分用两个动作表示。

例如想要音量升高时，可以定义动作为“音量”+“升高”或者“音量升高”。组合型动作花费的时间更长，独立动作花费的时间更短。

三、准确性

1. 指令识别的准确性

在识别指令方面，触控交互的准确率是最高的。不论我们是要开关灯，还是要点击屏幕上的某个按钮，只要用户在对的地方用对的方式进行操作，指令几乎都能及时被设备接收并执行。

手势交互的触点是全部预设好的，这一点与触控相似，只要用户执行了对的动作，就可以得到相应的结果。

而在语音交互时，用户表达的内容是没有限制的，这也意味着是不可控的。

由于大家在日常生活中说的话并不是特别严谨，从语义分析的角度，一句话可能可以被解读为多重意思。因此，在自然语言处理中常常会面临二义性的问题。

处理这种问题时，必须要进一步明确用户意图，否则设备可能会做出与用户意愿大相径庭的行为。

2. 唤醒设备的准确性

除了以上对于指令识别、执行的准确性外，语音和手势交互还涉及到设备唤醒的准确性。

以我家的小爱同学为例，偶尔也会出现明明没有有说到任何和唤醒词相关的内容，就突然听到一声“我在”。虽说我们人类在日常生活中，也常有听错看错的情况出现，但如果设备经常误触发的话会很影响用户体验。

这种误识别其实在手势交互中也是存在的。为了减少误触发，可以提高识别的阈值，但这也可能提高漏识的概率。

当然，技术是不断进步的，在算法不断更新、样本不断增加的基础上，识别的准确率在未来肯定会有提升。

3. 干扰

三种交互形式都可能被相应的干扰影响，从而降低操作的准确性。例如语音交互在嘈杂的环境中，手势交互在强烈的阳光下，或者触控交互在寒冷的雪地里。

四、学习成本

语音交互属于最自然的交互方式之一。它能承载非常丰富的指令，却不需要用户专门学习如何使用。

不过不少智能音箱都存在互动频率较低的问题，用户在使用时可能只是局限于某些已知功能，没有进一步探索或尝试。

因此，语音交互的学习成本在于，要教会用户使用更多的功能。例如Siri会显示引导“你可以这样问我”；小爱同学也会在完成用户的日常指令后推荐一些自己的其他功能，比如讲个笑话。

触控交互已经深深地融入我们的生活，从以前拉闸的灯，到现代每天使用的手机。有很多从各个角度讲如何降低产品学习成本的文章，此处就不赘述了。降低学习成本的一个经典例子就是拟物化设计，让当时的用户更容易从图标联想到对应的实体按键。

手势交互的学习成本相对较高。在使用语音或触控时，即便你随便说点什么，也会有一定的反馈和结果。而手势触控，则通常需要用户比出代表正确含义的手势才会生效。

设计师能做的，是在设计相应手势前做好详细的用户调研，尽量使手势符合用户的潜意识，更易于学习和记忆。

五、情感互动

而在调动用户情感方面，语音交互自带加成。声音是一种有温度的介质，我们会不自觉地通过声音的感觉、说话的语音语调去想象这个声音背后的形象。尤其是现在的算法极大地丰富了语音进行互动的能力后，这种温度感更加被放大了。

就像电影《Her》中，男主与AI语音陷入了爱情。在《设计心理学3》中，作者将情感设计分为三个层面。语音交互的优势是容易让用户从本能层面就开始产生舒适、亲切的感觉。

目前手机上常见的情感化设计，很多是对内容进行设计加工，从而和用户产生情感互动，而不是说触控交互这种形式本身承载了情感。

未来随着VR的发展，也可能有一些其他的想象空间。例如通过手势可以和游戏内的角色直接互动，或者有新一代的手套能给大家更真实的触感。

六、隐私性

触控设备的唤起通常是物理性的，而语音和手势的唤起则比较虚幻，设备需要一直“听”或者“看”你是否发出了指令。

这种对指令的实时监测意味着设备需要一直接受外界的信息。在这个过程中，难免会采集到一些用户非常私人的信息，尤其是在家居、车载这样相对封闭私密的环境。

前段时间有新闻报道，Google Home会将用户的对话录音卖给承包商，从中获得一定利润。

同时，彭博社也在报道过，Alexa的员工在监听用户与Alexa的私人对话，目的是为了对谈话内容进行人工分析，从而在未来的使用中提供更准确的回应。在监听期间，甚至有审核员听到性侵现场后警方报警的事件发生。

联想到之前的一则社会新闻，一男子对妻女使用严重的家庭暴力，而这场暴力之所以会被公之于众，居然是因为有人非法入侵了这些家用摄像头看到了这个场景。

这些犯罪事件是绝对需要严惩的，可是这些也暴露了信息采集的设备存在不小的风险。对于更多遵纪守法的人而言，生活被无时无刻地监控，也是一件非常可怕的事情。

触控的隐私性则相对好很多。虽然各种厂商会对用户浏览搜索关心的内容进行分析以便更精准地推送广告，但是它对于私人生活的侵入性，则比另外两种交互方式小不少。

如何让公众产生信任，我认为也是需要解决的重要问题。不论是通过规范各项流程，加强保密手段还是优化产品唤醒机制……打消消费者的顾虑，也有助于自己产品的推广。

以上为个人观点，欢迎一起讨论╰(●’◡’●)╮。

作者：迷思特圆；公众号：迷思特圆（ID:mryuan55）

本文由 @迷思特圆原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 Unsplash ，基于 CC0 协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

迷思特圆

目前负责新技术以及ToB相关的产品设计

10篇作品 86099总阅读量

定位细分领域，找超高客单价产品的方法！

03-216509 浏览

直击618开局：李佳琦稳定发挥，辛巴杠上榴莲，小红书明星主播奇袭

05-293449 浏览

大厂齐出海：字节忙种草，网易爱社交

04-273884 浏览

1000亿美金！OpenAI将成硅谷史上融资最多公司

05-126141 浏览

下载一万次、营收千万元的生意？

10-074051 浏览

目前还没评论，等你发挥！