语音交互规范(第一讲)

9 评论 8089 浏览 51 收藏 15 分钟
告别碎片化学习!通过“体系化知识输入+真实项目输出”的模式,帮你打下坚实的产品基本功,全方位提升你的核心竞争力,实现职业能力的跃迁。

编辑导语:随着互联网的发展,语言交互融入了我们的日常生活中。那么,关于语音交互规范,你又了解多少呢?本文从AI语音交互发展谈起,总结了一些语音交互规范内容,供大家参考,希望对你有所帮助。

一、AI语音交互发展

语音交互的发展经历了三个阶段:

第一阶段是上世纪80年代,语音交互能够实现一问一答,前后回答并不具有内容的相关性。随着人工智能和深度学习的发展,机器的理解能力越来越强。

自从2009年开始,随着iPhone手机siri的出现,进入第二阶段,语音的对话能做到有问有答,能够理解上下文,但是这种应用场景还比较局限。

第三阶段,2014年Amazon Echo的出现,实现了应用领域的革新,拓展了语音交互的场景,智能语音交互的爆发则在2017年智能音响的发展,语音交互得到巨大的突破,语音和语意的理解更加准确,具有代表性的产品有小爱音响、天猫精灵和小度音响等。

二、什么是AI语音交互?

AI语音交互通俗的理解就是:人与机器的对话。语音交互在技术方面讲主要包括:听(ASR)、语义理解(NLP)、说(TTS)。

听(ASR):用ASR技术把语音识别成文字。

语义理解(NLP):使用NLP技术,把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后,把想反馈的回答以文字表达出来。

说(TTS):使用TTS技术把文字合成为语音。

三、为什么要建立AI语音交互规范?

在公司角度:有统一的交互规范便于公司内部产品形成统一的共识,减少沟通的成本,提升工作的效率。

在设计师角度:对外有了统一的交互规范便于与产品、开发等人员的沟通,对内便于组织内的成员学习与提高。

在设计管理者的角度:对内能达成设计共识,对外提升设计组织的影响力。

在我看来交互规范是一个内部产品,它随着产品的生命周期迭代演进;交互规范是一套内部共识,它不仅仅解决了设计问题,更是组织协同的解药;交互规范是一种思维方式,不仅产品设计,甚至自己的生活都可以借鉴设计系统来提升效率。

四、AI语音交互规范主要内容是什么?

  1. 语音交互原则
  2. 语音交互框架
  3. 语音逻辑规范
  4. 语音控制原则
  5. 多模态交互
  6. 弹框机制
  7. 操作反馈
  8. 界面架构
  9. 情感化设计

五、语音交互的原则

1. 通用原则

及时反馈原则。用户在与系统进行语音交互的过程中,系统要给予及时的反馈。

合适的速度。语音的播报速度、结果呈现速度、IP形象展示的速度、文字展示及纠错的速度都在一个合适的范围内。

易取原则。尽量减少用户对操作目标的记忆负荷,交互动作和结果都是可见、可听的。

人性化帮助原则。在用户需要帮助的时候提供必要的帮助说明和引导。

灵活高效原则。语音交互可以跨越层级,直接高效的触达目标。

防错原则。在用户意图不明确的时候,可以向用户询问,还可以预测用户的可能的意图提示用户。

消除歧义。交互的形式和内容不会让用户感到困惑,当用户的命令存在歧义时,通过交互的形式消除歧义,帮助用户达成目标。

适应当地文化。语音的形象IP和话术的提问及回答都要符合用户所处的文化背景和地域文化。

2. 交互的可用性要素

轮流对话。在对话中基于信号的传递, 进行轮流的表达。回答的机制是一问一答。

上下文串联。在对话的语言中需要结合上下文的语意串联起来进行回答,这样有助于提升对话的准确性。

多样性。对于具体的场景,应该多样的问与答,结合情景多样性的回答。

理解行为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。

反馈。对于用户的请求应给予反馈,无论是声音、文字还是图像。

语音的效率。在对话的过程中往往有一些隐晦的潜台词,在对话的过程中要理解口语之下的更深层次的意图,并给予准确的回答。

3. 人性化的表达

语言是人类表达情感的重要方式,在语音交互的过程中,人性化的设计必不可少的。状态可见原则。在整个语音交互的对话过程中,对于场景、角色都需要从人与人对话的角度出发。

对话的逻辑。语言对话逻辑应该遵循人类语言的本能,不应该强迫用户为了适应机器对话而采用层级递进的逻辑思维,用户只需要正常的表达就可以。

情感化。语音交互需要人格化、情感化。需要与产品的品牌调性相契合。语音人格方向特征具有:有趣、正能量、机智和温暖等特点。

口语。口语化的交流,同时也需要避免说显而易见的内容,对话需要多样性,使体验更加自然。

环境贴切。使用简单易懂和约定俗成的表达,尽可能的贴近用户所在的环境。

地方语言。语言的本身要有地域的特色,语音的表达要有广泛的群众基础,其中方言识别也是语音交互中重要的技能。

六、语音交互框架

1. 语音交互流程

一次完整的语音交互流程,包括:唤醒—ASR—NLP—Skill—TTS语音应答/界面结果展示(如下图所示)。

AI语音交互规范(第一讲)

2. 语音交互框架

1)根据苹果公司的全品类设备的特点,在语音框架需保持一致,兼顾mac、paid、手机大小屏和横竖屏。Siri交互包括:Siri的状态、ASR内容/话术、语言TTS反馈。

AI语音交互规范(第一讲)

3. 远场与近场

远场应用比如Siri。直接说:“Siri”唤醒语音助手,唤醒后可以远程进行语音交互。

近场应用比如智能电视。使用遥控器,按住语音键,对着遥控器进行语音近距离语音交互。

设计用例:

User:“Siri,定个闹钟”。

语音助手:“你要定什么时候呢?”

User:“明天早上8点”。

4. 正常/异常状态

正常状态:

语音交互的过程中,通过TTS和Siri状态(包括:等待与加载),来满足及时反馈。

异常状态:

语音交互过程中,判断外网终端->提示:待命+网络异常,请检查网络。

注:无界面时,直接TTS反馈:【网络异常,请检查网络】(要求TTS写在本地)。

5. 对话澄清

指语音主动与用户的对话,达到意图的确认。

说明
:

① 澄清应用于用户意图不清晰,必须进行再次对话才能进行意图确定,否则导致机器执行的任务错误。

② 假如在远程的交互中,澄清的过程中,需要语音一直处于待命状态(也就是无需再次唤起即可对话)。

③ 在澄清的过程中,需要关键词引导,以便于用户表达明确的意图。

④ 为了让用户能自然的回复和应答,同时也防止自然口语化,语音的澄清话术需要采取封闭式关键词引导。

⑤ 关键词的引导,根据人的记忆及听力的规则,每次小于等于3个,且近俩个每句话术文字在7±2之间。

设计用例:

User:“帮我定下明天闹钟?”(意图不明)

语音助手:“你要定几点闹钟?”(几点钟为关键词)

Uesr:“明天早上8:00”(意图明确)

6. 多伦对话

多轮对话指语音助手与用户进行一轮(一问一答)以上的对话。

说明:

① 应用于意图虽然清楚、可执行,但任务执行结果不清晰。如:结果的集合过大,用户没有找到具体的内容。

② 多轮的引导,应能帮助用户完成任务,同时防止用户自然语言的发散。

③ 多轮对话的轮次意味着用户与智能设备的多次交流。在搜索工具语言中,语音交互较快的达到目标是关键,轮次越多代表执行的效果不理想,通常以小于3轮较为合适。但是在闲聊类型功能中,轮次越多,代表用户聊天的意愿越强。

设计用例:

User:“能帮我找一下好看的电视剧吗?”(意图清晰,任务集合过大)

语音助手:“你要看中国的?还是国外的?”(关键词引导)

User:“中国的”(意图明确)。

7. 话术

话术指用户与智能设备对话的形式。

说明:

① 话术来源:a 语音产品中需要互动交流产生场景话术;b基于人与人对话的原则撰写而成的话术。

AI语音交互规范(第一讲)

设计用例:

AI语音交互规范(第一讲)

8. 话术(TTS)设计

语音话术指在语音交互过程中语音助手通过语言与用户进行互动,包括文字话术和语音话术。

说明:

① 显示的文字话术与语音助手的形象关联,并配合出现。

② 显示话术与当前语音逻辑相呼应。

③ 语音话术:用户发出请求后,需要给予语音应答。比如:“定今天下午3点闹钟”,反馈;“好的,已经定好下午3点闹钟”。

④ 声音及文字:引导过程中,根据业务的需要进行声音与文字的引导。

声音引导:引导澄清用户的意图。

文字引导:语音域中的引导话术。

声音+文字引导:比如问题及内容的搜索结果。

⑤ 运营类话术:针对高频词的结果及当前热门的内容,定制化的话术,目的是增加产品的情感,更加贴切用户的反馈。实现的方式:由运营后台配置。

9. 用户对话引导

语言具有自然性,为了避免用户语言的随意泛化,导致用户指令无法识别,需要在语音中进行话术规范性引导。

说明:

引导话术结构-“唤醒方式+需引导的技能话术”。

① 全局性引导。由话术平台统一部署,引导分为3类:

  1. 语音更能引导;
  2. 当下热门内容引导;
  3. 新上线或主推功能引导。

② 相关域引导。在语音交互过程中,提供当前领域的相关话术引导。分为两类:

  1. 当前领域中多维度的引导;
  2. 多轮进阶式引导。

③ 运营类的引导。专门为运营类产品定制的语音话术引导。

10. 情感表达机制

语音交互人性化,是语音交互重要特征之一。

说明:

基础状态:

  • 唤醒状态;
  • 待命;
  • 加载;
  • 免唤醒;
  • 声源定位。

基础情绪:

  • 欢呼;
  • 陪伴;
  • 安抚;
  • 帮助;
  • 其他(更多的类型根据业务需要进行添加)

基础情绪的表达(如图所示):

AI语音交互规范(第一讲)

七、小结

语音交互规范主要内容分为:

  1. 语音交互原则
  2. 语音交互框架
  3. 语音逻辑规范
  4. 语音控制原则
  5. 多模态交互
  6. 弹框机制
  7. 操作反馈
  8. 界面架构
  9. 情感化设计

本篇仅写了:(1)语音交互原则(2)语音交互框架,后续分为3篇完成,谢谢大家阅读,后续内容敬请期待!

 

本文由 @东哥的设计分享 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

本文由 @东哥的设计分享 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 等更新~

    来自安徽 回复
  2. 这位同学,你这盗用的有点彻底,里面的内容有一个字是你写的吗?

    来自广东 回复
  3. 这位雷鸟的同学,你盗用的时候跟原作者申请过了吗?

    来自广东 回复
  4. 你用的好多图和内容都是我TCL的同事自己工作辛苦产出的工作沉淀,麻烦你删除并道歉!

    来自广东 回复
  5. 兄弟你瘦了 ,看着疲惫了

    来自广东 回复
  6. 不好意思,最近太忙了~我尽量抓紧时间更新!感谢各位读者的关注~

    来自广东 回复
  7. 求更,急

    来自北京 回复
  8. 大神你继续更新啊,求更

    来自湖北 回复
  9. 第二讲抓紧更啊。。。。

    来自天津 回复
专题
146169人已学习32篇文章
做一个好运营,技术和意识都得过硬。
专题
43950人已学习16篇文章
设计库存、财务、退换货流程时不用一个头两个大了。
专题
17725人已学习18篇文章
本专题的文章分享了车载HMI设计指南,包括HMI的交互、设计、功能等方面的知识分享。
专题
16467人已学习11篇文章
本专题分享了算法相关的知识,汇总了算法的基础知识和进阶知识。
专题
17865人已学习13篇文章
当下人脸识别在生活中被应用得愈加广泛。本专题的文章分享了人脸识别的入门指南。
专题
19544人已学习15篇文章
评论区应该如何设计?本专题的文章提供了评论区设计思路。