智能语音交互应该如何设计?

1 评论 9184 浏览 93 收藏 14 分钟

编辑导语:随着亚马逊、小米、阿里巴巴等大公司都推出了智能语音产品,智能语音交互设计成为了一个值得探索的领域。语音交互如何设计才能达到更自然的交互反馈、更好的传达情感,这是目前需要解决的问题。对于用户来说,希望能与智能产品建立亲切的信任感,越相处越好用。AI时代,深知我者,才能久居我心。

一、语音交互需求价值

说到语音交互需求价值,总有一种不言而喻的感觉,语言作为人类信息传递的主要媒介,用其进行沟通交流,是一种遵循本能的行为。从我们记忆机器命令的键盘输入,到按机器提示的点击触碰行为,这类需要我们去理解机器的方式,随着科技的不断突破,也迎来了转变。

语音交互除了几乎不需要任何学习成本外,更有意义的是,解放了作为输入的双手(是不有种人类实现直立行走的伟大意义),人们可以同步开展其它任务,并且也调动了人类听觉的感官体验,而不用完全局限在视觉上。

下面就来说说如何设计一款语音交互产品,先说说语音交互产品设计的整体流程框架,再对其中各环节涉及的问题展开说明。

二、流程框架

查阅了亚马逊Alexa语音界面设计规范和Google的语音界面设计规范后,结合自己的解分为五个关键步骤:调研→定位→设计→测试→完善。

调研—— 挖掘语音交互使用场景

定位—— 聚焦产品定位,创建用户画像

设计—— 设计状态流程图,编写脚本,建立原则

测试—— 真人感受,在线模拟测试

完善—— 数据+案例分析,优化调整。

1. 调研:用户场景的选择

虽说语音交互(VUI)带来了便利,但并不是说现有的交互方式都可以完全替换,想想毕竟文字的形式不也还存在嘛。其简单快捷的方式对需要复杂信息的呈现,需要时间思考反馈的产品反而会增加复杂度。

Google给出了3条指导原则:

  1. 人们可以快速做出回答的场景。比如用户输入不需要思考的基本信息;
  2. 快捷,可以省去中间交互的时间,强执行操作比如给XX打电话(搜索框输入XX,点击查询,拨打的步骤合并一步提交后台处理);
  3. 双手已被占用,需要并行处理其它任务场合。比如开车的时候,做饭的时候,记笔记的时候,这些场合双手多数是被占用的。

2. 定位:创建人物画像

语音交互是在模拟人的行为,建立的虚拟人的形象,也会让人们将现实中人的行为与其关联。字正腔圆的新闻联播是严谨真实的,少儿节目是活泼可爱的,相声综艺是轻松诙谐的。

在设计对话前,定位出产品态度,才好选择词语风格,句子结构。

3. 设计交互对话

设计分为三个步骤:逻辑状态图——对话脚本编写——解决方案分级

1)围绕用户产生的结果状态,梳理出逻辑图

机器与人的对话存在多种可能性,除了完成核心场景外,还要考虑意外的情况。用户输入 不在范围内,用户不按提示操作,用户重复输入多次,用户没有回应等等。

但是这些都不算用户输入错误,这个概念是不存在的,都是一种状态,需要引导到正常会话下图是未展开细节的状态流程图示例。

唤醒——响应——输入——理解——输出

(橘色是人的输入,绿色是机器输出,无色是处理逻辑):

如何设计AI 时代的入口——语音交互

2)对每个状态编写对话体验脚本

如何设计AI 时代的入口——语音交互

3)结合情感化设计的解决方案分级

从用户体验划分为三个层级,满足人们功能、心理、自我探索共鸣需求。

  • 功能级:期望对话的产品更像一个自然人亚马逊Alexa设计规范指出人类对话的核心特点:串联,有上下文的相关性轮流,你说一句我说一句的互动潜在效率;省略词,简洁高效的本能多样性:一句话可以有多种表达形式。
  • 心理级:激发未知好奇心人类天生有好奇心,喜欢新事物,计算能力强是机器的优势,如果每次对话,同样的问题会有不同的回答,用户会主动想去体验互动。
  • 自我探索级:触发情感共情人是有感情的生物,一本记满日记的本子,陪你走南闯北的行李箱,何况是一只会说话的产品。并且经过时间的磨合,她越来越懂你,记得上次你查询的内容,记得你上次问的问题。会唤起你小伙伴在身旁的感觉。

4. 测试

1)大声的朗读出来,听起来是口语,而不是书面语言;

2)谷歌在线模拟器 ?https://developers.google.com/assistant/console/simulator。

5. 迭代完善

1) 结合用户反馈,数据统计进行分析

比如:对于用户同一个问题提出多次原因可能是:

  1. 答案不是用户想要的;
  2. 用户忘记了第一次答案;
  3. 用户顽皮这时候可以结合人工理解,大多数用户选择进行优化。

2)示例中等待时间5秒按Cathy Pearl书中试验得出,这个值可以根据不同产品用户的反应速度调整。

三、设计中考虑的因素

从用户,产品,信息内容,传达方式中的问题与语言特征依次说起。

1)用户意图的识别

人们问的问题,因为个体差异,关注的点不同,需要的结果也会不一样。

比如:今天出门需要带伞么?

——男性:关注下雨;

——女性:关注日晒。

区别个体差异,让用户觉得你懂他,体验到产品的温度。

2)产品人格塑造

我们在与他人交流的时候,会注意场合,自我形象,用连接词进行话语的过渡。语音交互,作为一个拟人化产品,这些也是要考虑的。

  • 自我形象:面向小朋友的教育软件,要树立一个勇敢权威的形象,而他们本身就是可爱的,就不应该再加入卖萌的话术。而客服类语音,由于客户面对问题会存在不耐心烦躁的情绪,就可以用幽默的话术缓解一下气氛。
  • 注意场景:在公共场合,话语要简洁,高效解决问题。在私人空间,比如家,可以网络语化、逗逗乐。
  • 过渡词:人们谈话的时候,不会拘泥于一个话题,会不断展开话题,比如:对了、其实、但是…

3)控制内容范围

语音交互实质是连接产品服务与用户需求,所以答案要么和产品有关,要么和产品无关。有关的是基于产品本身的有限搜索信息库。无关的用兜底的话术结束(这个功能我还在努力学习)还有一种是引导用户,结合着视觉,罗列出和主题相关的选项,引导用户找到答案。

如何设计AI 时代的入口——语音交互

4)信息口语式传达

口语在表达的时候,为了简洁方便,并没有按着严格语法(主谓宾,定语*+名词的结构),省略的、不连续会被大脑自然补齐,比如:

CASE1:

点餐,来一杯拿铁,大杯加冰,而书面表达可能说,他点了一大杯加冰的拿铁;

CASE2:

询问天气:今天天气怎么样?(隐含用户现在所在的城市)。

继续询问,那杭州呢?(隐含还是问的天气)

书面表达是事后信息重整理,口语表达是大脑同步传递,先表达中心,然后补充细节。用户信息输入后,留出一段停顿的时间,再执行命令,会更符合说话的节奏。

四 技术及其现状

语音交互的信息流处理步骤如下:

如何设计AI 时代的入口——语音交互

1)语音识别 ASR :听清用户说话

处于单模式状态:唤醒对话,再唤醒再对话的方式,反映到现实是这样场景:

小明,播放周杰论的告别气球。

小明,声音大些。

小明,再大些。

小明,循环播放。

小明,播放Remix版。

你每次说话都要带上别人的名字。目前大部分产品是单轮对话,采用一问一答交替形式,对用户纠正信息,打断对话是不做响应处理的,期待技术发展后续可以是边听边思考的信息流状态。

2)语义理解NLU :听懂用户的话

语义理解要做到智能除了字面含义外,用户意图识别,情绪识别,对话的上下文信息关联都是要考虑的因素。

3)信息搜索Info Search :最强大脑

依赖于检索的准确率,召回率。

4)语言生成NLG:生成结果

分为三个级别:

  1. 简单数据合成并;
  2. 模版化输出,比如:导航的语音播报;
  3. 高级版模拟人类表达,它理解用户意图,结合知识图谱,比用户多想一步等,解决其本质需求。说两个例子,畅想一下:

CASE1:

用户:小明,杭州气温多少度?

语音:杭州今天气温10~14度,未来3天有小雨,主人出门建议多带件换洗衣物(用户之前通过语音查询了机票酒店信息,或者上次主人问了这个问题后,有5天都没有再用设备,因为不在家)。

CASE2:

用户:小明,来首歌吧!

语音:(识别出语调兴奋)好,播放了一首欢快的high歌。

用户:小明,放首歌!

语音:(识别出语音的低落)好,播放了一首正能量的歌。

这一部分的可关联的空间还很大。说个题外话,语音是人类所擅长的,对其的预期会高,有时说话像个孩子的样子,有时反而还会讨喜。所以还要结合心理预期维度的研究。

5)TTS :播放给用户听

目前可以选择喜欢的明星的声音,以及AI主持人。

总结

无论从市场应用的硬件载体覆盖面(智能音箱、智能手表、智能导航仪等),行业应用广泛推广(医疗,教育,公检法,车联网,泛娱乐等),还是聚焦在产品设计,技术优化上,以及符合人体本能行为需求价值上,还是作为AI时代的入口,这个方向都是很有趣的,欢迎开撩~~

 

本文由 @大鱼海棠 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 写得不错~

    来自卢森堡 回复