心理学角度思考：儿童语音机器人VUI设计（早教篇）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

心理学角度思考：儿童语音机器人VUI设计（早教篇）

唐吖年

2018-09-20

3 评论 6192 浏览 69 收藏

20 分钟

我曾给我外甥和外甥女买过语音机器人-扑闪着两只萌萌大眼，配上胖墩墩的mini人物外形，本来以为会深受两个小不点的喜好，谁知两小不点在夜里被机器人吓得之后都不敢靠近。正如Meadows曾提出“恐怖谷理论”：与人类极其相近但不完全相同的事物容易引起人的恐慌，也因这件事引发了我对儿童语音产品的探究。

如下图：

恐怖谷理论

行业产品研究

简单总结业内儿童语音机器人做的比较出色的其中三家（并未穷尽，聊表敬意）：科大讯飞的阿尔法蛋、狗尾草的公子小白、ROOBO的布丁豆豆。总结有误之处还请指正。

（1）水平对比分析：下图部分展示三家公司产品中其中三款产品的定位和交互、展示方式，且得到小结论：

主要面向0-16岁人群群体；
产品定位主要涉及儿童呵护、儿童教育（早教、学习指导）、生活助理；
教学内容基本为早教至初三前教学资源，少量涉及高中教学知识；
交互形式主要包括VUI（语音用户界面）、GUI（图形用户界面）；
AI技术包括声纹识别、ASR（语音转文字识别）、自然语言处理和对话管理、语音合成、计算机视觉OCR（文字识别）、TTS（文字转语音识别）、知识图谱。

（2）垂直对比分析：将同家公司旗下的不同版本的语音机器人产品进行功能对比。

科大讯飞旗下有大蛋、小蛋、超能蛋、金龟子等，四款产品明显区别：

大蛋有屏幕和摄像头，可以满足比如视频通话、安全监控、声控拍照等关于视频方面的操作需求，其它三款没有。
大蛋和超能蛋是语音唤醒，小蛋和金龟子蛋是按键唤醒。

狗尾草旗下有公子小白成长版I、公子小白成长版II、公子小白青春版、公子小白Pro等，旗下产品比较清晰地划分目标群体用户，成长版II主要针对婴幼儿，成长版I主要针对学龄前至少年期，青春版主要针对青年期，Pro版主要针对成年期。

成长版和成长版II的明显区别：

I版有记忆调教，II版没有，考虑学龄前至少年期儿童群体心智已较成熟且口头表达能力较流畅；
I版为语音唤醒，II版为按键唤醒，考虑锻炼儿童动手能力和降低婴幼儿因口齿不清唤醒机器人的难度。

ROOBO旗下有布丁机器人1S、布丁绿豆、布丁迷你豆、布丁豆豆慧读版等，区别在于：

布丁绿豆是1S的版本升级，增加了触摸操控+屏幕表情，双插电充电+升级电池、记忆功能、学习报告、视频功能、丰富了教学资源；
布丁豆豆慧读比绿豆增加了绘本读书器功能；
迷你豆比绿豆减少屏幕，增加微聊和胎教教学内容。

小结思考：“是否需要为儿童提供屏幕动态视频展示功能”、“是否需要针对不同年龄段儿童制作不同功能版本的机器人”是我在了解行业产品后发现的有趣探讨点，在接下来“心理学角度思考：儿童语音机器人VUI设计”系列会进一步涉及个人观点。

心理学角度思考：儿童语音机器人VUI设计（早教篇）

第一步：确定目标用户群体

意大利著名的“蒙特梭利教育理念”提到：宝宝在6岁前不同阶段对语言、动作、细节、程序、书写、阅读等特别敏感，该段时期称为“敏感期”，抓住该段时期让孩子从无意识状态过渡到有意识状态，并建立起宝宝所特有的心理结构和语言表达机制。

0-6岁孩子八大敏感期如下：

本篇主要研讨早教语音机器人VUI设计，目标用户群体为0-6岁婴幼儿群体。

第二步：树立VUI人格特质，选取符合产品形象的音色

Cathy Pearl在《语音用户界面设计》一书中曾提到：

“用户会将你的VUI人格化，无论你是否有意让用户这样做，他们都会认为VUI具有某种人格特质，最好做法是你自己在设计时就确定好VUI人格。”

Siri的高冷女性形象、微软小冰的卖萌逗趣小可爱、小爱同学的青春二次元美少女便是主动打造VUI虚拟角色、树立不同人格特质的做法。

而0-6岁婴幼儿最需要家人陪伴，因此机器人形象树立为年轻温和的宝爸或宝妈，由于不同家庭宝爸宝妈陪伴孩子的时间各异，可构建两种形象版本让用户切换选择，比如：某户家庭中陪伴孩子时间比较少的是爸爸，用户可以选择“宝爸”版本，让语音产品填补宝宝缺乏的来自父母某方的陪伴。

而机器人语音音色的选择需要和产品形象保持一致，需要温和不严厉的年轻音色。目前科大讯飞已经推出声音复刻技术在小范围群体使用，往后若声音复刻技术达到推广应用水平，或许可让用户通过复刻自身声音来自主定义机器人语音音色，使得宝宝更真切感受到家人的陪伴。

第三步：明确产品定位，构思功能，绘制VUI流程图

流程图在IVR（互动式语音问答）设计中用于展示VUI系统所有可能发生路径的图示，在绘制流程图前要先根据产品的定位和目标确定产品功能。

产品定位为：早教+陪护。
产品目标包括三项：开发智力、关注心理健康、保障安全。

Part 1 : 产品功能考虑细节

屏幕视频功能考虑：

针对早教是否需搭配动态视频展示这个问题，有的机器人产品考虑保护孩童视力不建议增加动态视频功能。

个人观点是：根据“蒙特梭利教育理念”提到的0-6岁宝宝的“感官敏感期”，4个月左右时，宝宝大脑中负责听觉、语言、嗅觉的颞叶和枕叶会变得更加活跃，色彩鲜艳、情节简单的拟人卡通视频会对他们更有吸引力，且在有助在其不识字状态帮助理解学习。感官的全面调动也有助于开发宝宝智力。

互动游戏功能考虑：

同时，“蒙特梭利教育理念”提到：孩童6个月后会进入咿呀学语模仿阶段，9个月左右进入语言理解阶段，13个月左右可进入以词带句教育阶段，下图举例了3-6岁孩童的语言能力发展目标。

此阶段要让孩童多与环境中对应的事物互动并鼓励说出来、培养孩童的专注力和听力等，这种情况下趣味性的互动游戏便不可或缺。

引用《蒙特梭利：儿童语言能力训练》

虚拟表情动态功能考虑：

美国著名的心理学家丹尼尔.西格尔在《全脑教养法》中提过“印证式倾听”，而印证式倾听的前提是让对方感受到自己是在用心了解其观点。孩童渴望得到关注和聆听，因此当机器人跟宝宝在沟通对话时，搭配上虚拟表情状态，表达对沟通者的关注和喜怒哀乐情绪的共情。

状态追踪监护功能考虑：

如果要打造宝宝状态追踪监护功能，机器人硬件最好设计为可移动+室内空间定位，搭配计算机视觉技术。家长可在离家时开启宝宝追踪监控，通过人物识别确定追踪对象身份而追随其活动，重点识别是否进入危险区域和人体姿态识别其是否出现摔倒等状况。打造该功能时产品方需要承担责任风险和考虑孩童抵触心理，以及遇到像扫地机器人无法抵达家里某些空间的问题。

磨牙功能考虑：

宝宝6岁后进入探索事物的萌芽期，把抓到的东西放入嘴里啃咬是他们探索世界、寻求安全感的一种方式，且长牙阶段的难受使得宝宝更频繁咬东西。弗洛伊德的儿童心理学理论将该阶段称为口唇期，阻止孩童啃咬东西容易导致孩童长大后缺乏安全感和咬手指等坏习惯，因此要主动给宝宝提供安全卫生耐啃咬的产品。

Part 2 : 确定总产品功能（以下功能只是部分举例）

【早教功能】

英语动画视频教学+中英互译；
故事诗歌等中文视频教学；
双语语言游戏；
知识百科（儿童百科知识+育儿知识）。

【陪护功能】

关注心理健康的AI对话+虚拟表情动态；
儿童歌曲；
微聊+双视频通话+状态追踪监护；
童锁+防近视屏幕；
定时提醒；
家居设备中控；
防摔耐磨+安全磨牙材质。

Part 3 : 绘制VUI流程图

VUI流程图设计关注点如下：

设计的可发现性：让用户知道IVR系统都能为其做什么；
设计的完整性和可退出性：确保每个状态豆包含一组通用组件，如：主菜单、帮助、操作、重复、退出；
根据用户使用时间间隔，区分新用户和老用户的提示设置；
针对异常情况的应答处理；
每个状态的记忆选项不超过7个，当记忆选项过多时采取GUI+VUI结合的交互方式。

【第一种VUI流程图】

优势：每个分支用户记忆选项比较少；
劣势：用户交互步骤较为繁琐。

【第二种VUI流程图】

优势：用户交互步骤比较简洁；
劣势：每个分支用户记忆选项比较多，需要搭配GUI进行交互。

第四步：儿童对话场景设计思考

Part 1 : 语音对话技术实现原理

（该图出处不明确，知道原作者请告知，我加以注明）

以一张图讲述语音交互系统实现原理，帮助对语音交互理解，在语音对话技术实现过程中的需要注意的事项：

实现多轮对话和长依赖关系，解决对话问题；
处理一词多义，语言消歧、否定词问题；
对用户情感理解解析，对不同状态下语气词表示含义的识别和反馈；
良好的端点检测功能引擎，如何更好实现语音降噪；
如何保障用户数据隐私和数据安全不泄漏。

Part 2 : 调研常见情景，构建对话逻辑，设计用户指令集

面对纷繁复杂的用户使用情景，可以区分使用人群，了解不同人群常见使用情景而重点梳理构建对话逻辑，在此要考虑到的是：儿童早教机器人的用户群体不仅有孩童，还有孩童的家人等成人群体。

本次选取用户使用中文早教功能来构建对话逻辑：

针对中文早教的用户使用场景，<course>、<grade>、<type>是设计用户指令集时设置的槽位（slot），下图列举部分用户指令：

Part 3 : 通用的语音对话设计注意事项

根据Cathy Pearl在《语音用户界面设计》的理论，汇总语音对话设计通用注意事项：

对话的亲切自然、简短突出要点，加入基本对话礼仪，不要责怪用户，语速适中；
设置自然的启动和结束对话模式，利用启动效应让用户知道提问进度；
针对复杂问题，给出答案格式实例；设置更好的问题结构，避免问到一半，用户已抢先回答出不规范的答复；
构建N-Best列表，根据可能性和置信度排序问题答案，解决部分语音识别错误问题，兼容用户更多不同形式的回复；
适当地给用户反馈，包括给用户确认、系统出现等待时间时候等的反馈；
区分无语音超时（NSP）和语音终止超时来设置语音超时时间，如确定用户说完唤醒词后无语音超时时间，一般建议为10s；
允许用户打断语音，可用“魔法词”作为打断语音的暗号；
增强错误提示，进阶错误行为提醒；
根据不同置信度采用语言或非语言的确认方案；
处理微妙的话轮转换形式，比如：“嗯嗯”；
增加声纹识别，让IVR系统认主。

而面对儿童群体，还需要注意儿童群体存在发音口齿不清和吞音、尾音过短等问题，特别是有的孩童在3-6岁期间会出现短暂的口吃、失语症问题，要如何设计N-Best列表？

Part 4 : 在通用设计原则基础上，结合儿童心理学，设计对话应答脚本

个体心理学派的创始人阿尔弗雷德.阿德勒在《儿童人格教育》一书中曾提到：儿童心理问题包括自卑、因心理补偿而出现的膨胀野心、缺乏安全感、懒惰、焦虑、孤僻、依赖等。

此部分思考针对孩童陪护功能，针对孩童缺乏安全感的心理问题，结合丹尼尔.西格尔的全脑教养法理论来设计对话应答脚本。

而丹尼尔.西格尔在《全脑教养法》提出：左脑是逻辑、语言的、求实的，而右脑是情感、非语言、经验化的。单独依赖右脑会引起感情泛滥、依赖左脑会引起情感荒芜。当孩童遇到不好经历而拒绝表明伤痛，这样的情感处理方式是退回左脑处于情感荒芜状态，如果不正确梳理容易造成孩童长大后缺乏安全感和对对应事物产生恐惧心理。

很多人会采用避开谈论孩子遭遇的伤害，而正确的做法是引导孩子复述故事，帮助孩子整合左右脑，通过调用右脑理顺细节，然后引入右脑重访情绪，让孩子正面其内心的担心、害怕，随之让孩子意识到其在整个过程并非孤立无援，意识到问题已经解决过去。或者通过分享经历故事安抚情绪。

错误做法

正确做法

以下举例针对儿童遭遇不好情景或缺乏安全感时的对话脚本（script）：

门外汉的肤浅观点暂告一段落~

Thanks！

本文由 @唐吖年原创发布于人人都是产品经理。未经许可，禁止转载

题图来自网站

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

唐吖年

4篇作品 35307总阅读量

09-26445 浏览

12-121778 浏览

05-185261 浏览

12-143516 浏览

想转行做大模型？AI产品经理们，先看看这份指南

09-067059 浏览

pm65431

大脑左右半球可以分开执行高级心理机能是错误的观点。脑在执行一个任务时激活的脑区非常广泛，fMRI分析中会发现个别脑区为单侧激活，多数脑区仍是双侧激活，且单侧激活的脑区中左侧和右侧激活的脑区往往都是有的。

引用心理的文献请不要使用大众读物，谢谢!

最近回复
1. 唐吖年作者回复pm65431
  
  (*^_^*)谢谢大神指导，文章中该点言论来自于美国心理学家丹尼尔的《全脑教养法》，每位大牛级人物术业有专攻，不确定是否左右脑功能这点神经学知识丹尼尔大神是否有讲错，大神能否附上fmri的学校资料查看渠道，我进一步学习了解。我只大概知道：功能性核磁共振成像技术可以显示大脑各个区域内静脉毛细血管中血液氧合状态所起的磁共振信号的微小变化，而实验得到的结果很感兴趣想进一步了解～
  
  最近回复