从skill到技能，VUI时代已经到来

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从skill到技能，VUI时代已经到来

语音AI社

2018-11-07

1 评论 3793 浏览 22 收藏

9 分钟

当前，随着AI时代的到来，越来越多的人发现了语音交互的潜力，开始着手策划进入这个领域。本篇文章作者给大家分享了自己有关语音交互技能的一些看法，供大家讨论学习。

目前，在亚马逊alexa上，语音交互技能的数量已经超过5w，虽然这个数量和质量还没法和GooglePlay和AppStore提供的620万款应用媲美，但仍然是一件令语音AI从业者欢欣鼓舞的事，随着AI平台的规范化、标准化，越来越多的产品经理注意到语音交互的潜力，开始策划和设计技能。

这其中，也有不少刚刚接触语音交互技能的朋友，所以整理了一些基本概念，也夹杂了一些自己的看法，特与大家分享、讨论。

语音交互技能，也叫“技能”，这是个新鲜事物，在2年前，大家还必须要用英文，叫它skill。而定义语音skill的，正是亚马逊的现象级语音交互产品——echo。

一、亚马逊的0到3，贝索斯的130到5000+

时间回到2015年，当时的智能音箱大家还是用来听听歌啊，查查天气啥的（虽然听歌查天气的功能也没有达到很完善）。

当年7月份，亚马逊宣布了开放部分语音交互能力给第三方，正是这个尝试，让alexa平台诞生了最早的skill：Crystal Ball（水晶球），Math Puzzles（猜数字），StubHub（今晚干啥）。

详见下图：

现在看来这三个skill很基础，甚至是有点简陋。

比如，Crystal Ball“水晶球”这个skill的功能就是回答yes或者no，而且还是随机的……

比如你问音箱：alexa，我该减肥吗？音箱回答：yes，第二次你问音箱：alexa，我该减肥吗？音箱回答的可能就是no。

你问什么问题音箱不管，音箱只管回答yes和no，我觉得这个技能也许实现起来只用了三、四行代码吧，技术上应该是蛮简单的。

Math Puzzles“猜数字”这个skill也不难，就是播报一串数字，这串数字有一定逻辑，你说出下一个数字就可以了。比如，音箱会问2,4,6,8的下个数字是多少？你跟alexa说10，就算答对了。

StubHub“今晚干啥”稍微复杂点，alexa会把音箱的地理位置给到开发者，所以当你问alexa今晚干啥的时候，alexa可以根据地理位置推荐附近的电影、沙龙、活动和派对给你。比如：

用户：“alexa，我今晚该干点啥？”

音箱：“附近的XX创客空间，有一场人人都是产品经理主办的AI主题演讲貌似很不错，时间是晚上8点钟。”

但是，如果用户追问：“alexa，演讲人是谁”，音箱就回答不上了，是的，alexa开放出来的技能最早也没有多轮对话。

到了16年1月，alexa的skill数量达到了130个，alexa团队兴高采烈的发了个（信息图）infographic介绍成果。

结果把亚马逊的老大贝索斯搞炸了，趁着来开会把alexa团队教育一番，130？Wtf，怎么这么少……（据美国媒体the information报道，但亚马逊官方不予置评）

贝索斯要求这个速度要加快，加快，再加快。alexa的团队也很拼命，到了11月，alexa的skill数量达到了惊人的5000+，这个时候美国人民已经可以用alexa叫Uber，听Twitter内容了，智能音箱终于摆脱了只能听歌，查天气的窘境，当然这还要部分感谢贝索斯。

二、国内：从skill到技能，VUI时代的到来

等冬天过完，到17年上半年，对硅谷随时保持敏感的国内互联网大佬们，顺利把国内智能音箱的大战点燃，做skill的人逐渐多了起来。

skill，skill的叫着也不太顺，用户也用不明白，还是得要个中文的名字，翻译为“技能”再合适不过。

根据《辞海》，技能是运用知识和经验执行一定活动的能力。放到语音AI的场景里，语音交互技能就是运用自然语言对话的交互方式，实现影音娱乐、信息查询、生活服务等的功能，简称“技能”。

目前，不管是亚马逊alexa，还是国内的各家AI平台，技能的分类标准都很像，基本是把技能分成三大类：自定义技能、智能家居技能、内容播报技能。

自定义技能主要是生活服务、娱乐游戏，比如上文介绍的几种技能，都属于自定义技能。
智能家居技能主要是用来对其他智能设备进行语音控制，接口的完善性和语音交互已经趋于成熟，我听说有的团队把硬件接入alexa可能一天时间都用不到（审核时间不算）。
内容播报技能主要是对于新闻和信息的传递，像alexa平台很早的时候就集合了几乎所有美国的主流媒体：NYT、WSJ、NPR、CNN等等，媒体们对这个新兴平台还是处于卡位阶段。

和CNN的受众发展部副总裁艾伦-西格尔交流时，就发现他们暂时还是把亚马逊的echo这个平台放在战略圈的最外层（见下图），和apple watch等渠道平级，但他依然看好这种形式的潜力，毕竟美国已经有五分之一的家庭拥有了智能音箱。

而国内，腾讯新闻和新华社等都已经开始尝试把新闻feed接入智能音箱，并且在小雅AI音箱、小豹AI音箱等设备上落地。

要做技能，肯定要选择一个分类，这三种分类的技能在开发上侧重点也会不同。

比如，自定义技能，它的核心就是是语音交互（voice interactive ），语音交互就是将人的语言转换成应用的request（面向系统的请求）的模式，也就是VUI（Voice UI），我们之前谈论的UI更多意义上是GUI（Graphic UI），而要做好的VUI的交互和GUI一样，都对于细节提出了更多更高的要求。

亚马逊的VUI设计师Amdrew ku就说过：“人类对于声音的敏感是超出很多人的想象的。”