起点学院课程

智能外呼系统怎样更“拟人化”?

1 评论 3153 浏览 20 收藏 19 分钟
15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

随着AI技术的发展,智能外呼系统正在逐渐解决机械重复的问题,提高人工客服的效率。但在实际工作中,智能外呼系统还是面临着重重困难。本文作者基于自己的工作经验,对智能外呼系统设计提出了自己的一点思考。

在AI技术中,基于AI能力的营销、客服系统算是比较能落地的应用场景。从调研到项目落地,本人也是有幸完整参与了一个智能外呼的项目,当然期间也踩了不少坑。

本文将尝试着用自己的理解,对系统重新梳理一遍,也算是对这段经历的复盘和总结。若是写得浅薄,还望见谅~

一、AI外呼系统的构成

智能外呼业务流程图(PS:客服系统也类似,只是由用户主动呼入)

智能外呼、智能客服功能繁多,系统设计复杂,这里也只能是想到哪,写到哪。简单地将系统归类一下,整个系统围绕着通话的三条线展开(两个终端和一个通信过程)。

终端中用户端的核心是对用户的管理,也就是常用的CRM系统。而AI端,则是围绕着AI机器人的设计、优化去设计。

通信过程,由呼叫系统实现,包括通话的拨打、接听、挂机、转接等,也包括通话线路的管理、配置。

1. 呼叫系统

呼叫系统是一种针对电话的软交换解决方案,通过呼叫系统,电话机器人才能与用户通信设备进行通话。

机器人、呼叫中心、终端间简单的关系图

呼叫系统由来已久,经过这么多年的发展,其功能已经十分完善和稳定。

在AI驱动的公司里,也会采用FreeSwitch之类的开源系统进行自研。但是这个只有在有相应技术栈(C++),对呼叫系统有开发经验积累时可以去尝试。

因为,对于呼叫系统的租户来说,呼叫系统最关键的就是高效和稳定。要想进行商业化,就必须保证呼叫系统的高并发和稳定,这是一切的前提条件。

除去FreeSwitch之外,也可以购买第三方成熟的呼叫系统,例如国外比较有名的Genesys等。

购买成熟的呼叫系统,一个是系统本身已经比较稳定、功能齐全,该踩的坑前人已经帮忙全部踩过。还有就是减少研发成本,尤其是对于AI型公司来说,无需为呼叫系统再浪费研发资源和时间。

在呼叫系统中,会有一些专用名称,不是这个圈子的一般很难理解,例如坐席、线路、并发等。

坐席:

主要是软电话,一般也叫SIP电话。每个客服人员的账号会绑定一个坐席,拥有坐席之后,即可通过电脑在线进行拨打、接听电话。

线路:

可以理解为外呼时用到的主叫号码,通常为一批号码的集合,号码的类型很多,手机卡、中继线等等,有不同的接入方式。

线路资源会根据运营商时常变动,所以通常由专门的线路商去维护和运营。线路会被很多业务共用,只能外呼,不能呼入。为便于区分,这条线路下的所有号码会有相同的归属地,拨打的是类似的业务。

例如:北京教育线,便表示外显是北京,主要拨打教育营销相关的业务。

当然上述主要针对的是外呼场景,呼入场景只需要向运营商购买稳定的线路即可。

并发:

指同时间可以进行几路通话。并发受限的因素较多:呼叫系统性能、机器人配置数量、线路资源。

  • 呼叫系统性能:这是个技术问题,当高并发时,服务端无法处理,容易造成漏接、无响应等各种问题,并影响接听率。
  • 机器人配置数量:这个主要是种收费模式,按机器人并发量进行收费。
  • 线路资源限制:简单理解为线路中实际可外呼的sim卡限制(实际上很多种类型),算是种物理限制,只能多找一些线路,没有其他办法。

2. AI机器人

严格地来说,AI机器人就是一整套回应的话术,内容包括核心的对话流程和知识库。根据业务的不同,采用不同的技术方案。

1)两类业务场景

在业务上粗略地可分为两种场景:呼出场景、呼入场景。

呼出场景:

主要是电话营销、通知等业务。

大部分的呼出电话都是陌拜电话,例如教育培训、股票投资、医疗保险,都是广撒网的方式大量外呼。这些电话本身就是对用户时间的一种侵占,对用户来说没有意愿来配合进行问答,随时都可能被用户提前挂机。

总的来说,呼出场景的特点是:话术简单,单通价值低,用户不配合。针对此类场景,机器人采用的堆关键词的方式即可实现。

呼入场景:

主要是业务查询、预订等业务。

常见的呼入场景,例如有10086。之前拨打10086,使用的是IVR模式,需要按键操作,现在已经可以语音直接查询话费信息。由于是用户主动呼入,带有明确的目的,对电话机器人的容忍度相对较高。而机器人核心价值是帮助用户完成任务,在无法识别等情况下,可与用户确认,方便明确意图。

总结一下,呼入场景的特点是:业务稳定,单通价值高,用户配合。此类场景,就需要用到Rasa之类的聊天机器人框架,利用意图识别、实体提取完成任务。PS:呼入场景,类似于智能音箱。

2)电话机器人和在线机器人对比

本质上电话机器人与在线客服机器人相同。区别在于输入端一个是语音,一个是文本。

语音信息包含着更多无用的信息,文本要比语音更加精准和高效。当然语音中包含的语气、语速、情绪等也有部分价值,例如可以用来判断男女。

电话机器人由于需要先ASR(语音识别),转成文本之后,再NLP(语义理解),而在线机器人是直接进行NLP处理。因此,在最终的理解效果上,电话机器人的准确性会差一些。

3)语音输入的难点与方案

语音输入的难题,便是上文中所罗列的,这里不再赘述。这些难题不是目前技术可以解决的,或者说解决成本很高。这里就简要列举一些方案,具体需要在实际场景中多次尝试,才能得出最优方案。

方言问题:

最直接的方案是采用方言的ASR识别引擎。针对方言的ASR识别,在科大讯飞、阿里云等基础服务商都有提供。

问题是:第一,方言种类多,而一般识别引擎只能识别部分使用范围广的方言,如四川话、粤语;第二,不知道该用哪套识别引擎,用户范围广,在接通前都是未知的;第三,比较贵,商用成本高。

另一种是笨办法,但是也有效。通过人工巡检,将ASR识别结果中的拟声词、错别字、近似词都作为关键词积累起来,积累越多,越容易被识别。

噪音识别问题:

噪音可分为人声噪音和环境噪音。

常见的人声噪音例如:周围有人在说话、电视剧的声音等。由于设备的限制,没办法利用麦克风阵列等硬件去判断远近场,因此没有什么特别好的解决方案,毕竟电话的音频就只有8000Hz、单声道、16位。

环境噪音,在呼叫系统中就可以用滤波器、谱减法等方式降噪,还可以声音切片的长度。

例如:正常说话单个字的时长都大于200ms,过滤掉短促的噪音。此外,在送往ASR之前,还可以利用AI进行一次噪音识别,过滤之后再送往ASR识别。而ASR识别引擎本身也具备过滤噪音的功能。具体的实施方案可根据实际效果、商业化角度去搭配组合。

语气词、口头禅:

例如:嗯——这可能只是在组织语言时的停顿或者是倾听时礼貌性的反应,但会被识别成肯定的意思。

此类情况比较常见,在人工巡检过一批录音后,发现作为语气词的情景次数要大于作为肯定的情景次数。

因此,第一步是将单字的“嗯”、“哦”等词从意图中剔除,保留“嗯好的…”等更明确表达该意图的词。

第二步则是在AI对话时候,尽量不要让用户开放式回答,而是引导用户回答,比如用“是不是”、“可以吗”等结尾,潜移默化地影响用户回答“是”、“不是”、“可以”等指令明确的词。

打断、表达不清:

这个问题比较难表述,继续举个栗子:

假设AI询问儿童年龄,用户回答:“噢……我小孩4岁”,中间停顿了一下。在正常逻辑中,为让AI快速响应,在用户回答停顿的时候,已经执行下一流程。因此,这时AI可能会忽略用户后半句有价值的对话。

该问题往往容易使AI漏掉关键信息,同时也影响通话体验,给人生硬的感觉。针对该问题,目前是通过规则去控制,通过人工对通话记录的总结,制订处理规则。如什么情况下允许打断、什么条件下替换为上节点意图,这些都需要在实际场景中不断总结优化。

4)话术设计

机器人的对话设计有很多配置方式。底层基本都是Taskflow的模式,是类似于流程图,将多个节点连接起来。这种方式能够逐渐让问题的范围收敛,处理复杂的业务对话。

节点:

节点主要是针对输入的内容进行意图判断,最后根据判断分流给下一个节点。

在智能设备中经常会提及一个词叫“技能”,通过技能,可以完成特定的指令。节点也类似于技能,不过在通话场景下,范围会比技能还要大一点。

  1. 针对语音进行判断,即“技能”,可通过关键词、实体提取等方式判断意图。
  2. 针对按键进行判断,也就是IVR,这是电话独有的功能,用户可以准确地输入数字,不用担心ASR识别错误,在核对用户身份证信息等场景下特别有用。
  3. 针对系统数据进行判断,此时不需要用户输入,是由系统根据已有信息直接给出判断结果,如上一条中的身份证信息判断。

流程组:

在常见的销售、客服话术中,通常可以分为开场白、业务介绍、业务处理、结束语几个阶段。为了方便话术设计和后期优化,也会根据此类分发去设计节点流程,并用流程组作为阶段进行分隔。

5)AI效果优化
衡量一个AI机器人的好坏,要看它最终带来的收益和成本。

在呼出场景中,需要让AI最终意向率到达或者略小于人工水平,毕竟每一通电话、每一个号码都是成本的。

在呼入场景中,则需要关注问题解决率、客户满意度等。必要时刻还是得使用人工坐席兜底,因此还需要关注人工介入情况。

优化话术效果,主要通过录音巡检和分析每个节点的识别率、挂机率,为节点补充关键词、说法集,也会尝试不同的说话方式,具体的有时间再细讲。

就目前而言,纯AI接听的完成率与人工接听对比,还是有一定差距。因此真正适合纯AI的应用场景还是比较少,适合用在呼叫量大、内容单一的场景,如:电话通知、催收M0。

在其他场景下,还是以AI+人工配合更为合适。AI负责前期简单的对答,过滤和分流部分用户,再由人工更灵活地解决问题。等到收集足够多的说法集,归纳完善的话术之后,由 AI逐步接手,将人工后撤到下一节点,层层后撤,减少人工投入。

3. CRM系统

每一通电话记录都会经过CRM分析用户意向、最终通话结果。CRM系统基于业务,主要负责对客户的管理和跟进,整个CRM系统主要可分为3个方向:

  1. 对人员的管理:包括销售、客服坐席的增删改查和业务报表。
  2. 对客户的管理:涉及到客户信息、通话的意向度、完整跟进记录、状态的流转。
  3. 对资源的管理:这里的资源可以包括线路的管理运营、话术设计和优化。CRM系统较为常见,这里就不再多说,根据实际需求,进行调整和功能扩充即可。

二、主要竞争对手

图为当时做竞品分析时,归纳的竞品公司

在智能外呼这个赛道,直接竞争的是两类企业:传统的软件提供商和以AI为核心的科技公司。

客服软件提供商在客服系统、呼叫中心等产品上深耕多年,有相当完善的产品矩阵和客户资源,对客户需求、实施解决方案都是经验丰富。

AI型科技企业,则是垂直切入外呼场景,依托自身的AI技术,对单一场景进行单点突破,巩固自身的技术壁垒。只是就目前来看,AI技术的瓶颈还未突破,对智能对话、通话体验的改变不大。

除了上述两类企业外,百度云、阿里云、腾讯云之类的云服务商,利用自身优势,将技术集成到开放平台中,形成完整的行业解决方案。为企业提供ASR、NLP、TTS、呼叫系统甚至是线路等基础技术服务,降低了技术门槛,企业不需要特别的技术储备,即可搭建出自己的系统,可以说是一种降维打击。

PS:事实上AI驱动的企业,完善自身技术后,也在逐步开放AI能力,提供技术服务,为其他企业赋能。

而研究聊天机器人的企业,在NLP技术的研究和积累颇多,也容易快速切入。

三、核心竞争力

虽然说是AI机器人,核心亮点是AI。但是,在实际应用中真正利用到AI技术的并不多。

  • ASR:除非自身有足够多的语料和研发能力(还要考虑研发成本、更新维护能力),否则ASR大多都是通过科大讯飞、阿里云等大平台进行识别。
  • NLP:这个是一个技术核心,不过就目前的提升效果,通过填充关键词之类的笨办法也能达到相同效果。
  • TTS:在实际语音播放中,除了变量等必须由TTS合成外,大部分话术都可通过提前人工录音的方式完成,且播放效果比TTS还要好。

个人认为AI机器人的核心,不在于AI,而是基于业务场景的话术。客户不会关心技术如何先进,而是看最终的接听效果。当一个话术调整成接近人工坐席效果时,那么在这个业务场景可以说是形成了壁垒,拓展相似业务会更有优势。

 

本文由 @jessi 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
起点学院课程
评论
评论请登录
  1. 可以分享一下竞品分析吗?

    回复