智能外呼系统怎样更“拟人化”？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

智能外呼系统怎样更“拟人化”？

诃息

2020-06-12

12 评论 9620 浏览 82 收藏

19 分钟

随着AI技术的发展，智能外呼系统正在逐渐解决机械重复的问题，提高人工客服的效率。但在实际工作中，智能外呼系统还是面临着重重困难。本文作者基于自己的工作经验，对智能外呼系统设计提出了自己的一点思考。

在AI技术中，基于AI能力的营销、客服系统算是比较能落地的应用场景。从调研到项目落地，本人也是有幸完整参与了一个智能外呼的项目，当然期间也踩了不少坑。

本文将尝试着用自己的理解，对系统重新梳理一遍，也算是对这段经历的复盘和总结。若是写得浅薄，还望见谅~

一、AI外呼系统的构成

智能外呼业务流程图（PS：客服系统也类似，只是由用户主动呼入）

智能外呼、智能客服功能繁多，系统设计复杂，这里也只能是想到哪，写到哪。简单地将系统归类一下，整个系统围绕着通话的三条线展开（两个终端和一个通信过程）。

终端中用户端的核心是对用户的管理，也就是常用的CRM系统。而AI端，则是围绕着AI机器人的设计、优化去设计。

通信过程，由呼叫系统实现，包括通话的拨打、接听、挂机、转接等，也包括通话线路的管理、配置。

1. 呼叫系统

呼叫系统是一种针对电话的软交换解决方案，通过呼叫系统，电话机器人才能与用户通信设备进行通话。

机器人、呼叫中心、终端间简单的关系图

呼叫系统由来已久，经过这么多年的发展，其功能已经十分完善和稳定。

在AI驱动的公司里，也会采用FreeSwitch之类的开源系统进行自研。但是这个只有在有相应技术栈（C++），对呼叫系统有开发经验积累时可以去尝试。

因为，对于呼叫系统的租户来说，呼叫系统最关键的就是高效和稳定。要想进行商业化，就必须保证呼叫系统的高并发和稳定，这是一切的前提条件。

除去FreeSwitch之外，也可以购买第三方成熟的呼叫系统，例如国外比较有名的Genesys等。

购买成熟的呼叫系统，一个是系统本身已经比较稳定、功能齐全，该踩的坑前人已经帮忙全部踩过。还有就是减少研发成本，尤其是对于AI型公司来说，无需为呼叫系统再浪费研发资源和时间。

在呼叫系统中，会有一些专用名称，不是这个圈子的一般很难理解，例如坐席、线路、并发等。

坐席：

主要是软电话，一般也叫SIP电话。每个客服人员的账号会绑定一个坐席，拥有坐席之后，即可通过电脑在线进行拨打、接听电话。

线路：

可以理解为外呼时用到的主叫号码，通常为一批号码的集合，号码的类型很多，手机卡、中继线等等，有不同的接入方式。

线路资源会根据运营商时常变动，所以通常由专门的线路商去维护和运营。线路会被很多业务共用，只能外呼，不能呼入。为便于区分，这条线路下的所有号码会有相同的归属地，拨打的是类似的业务。

例如：北京教育线，便表示外显是北京，主要拨打教育营销相关的业务。

当然上述主要针对的是外呼场景，呼入场景只需要向运营商购买稳定的线路即可。

并发：

指同时间可以进行几路通话。并发受限的因素较多：呼叫系统性能、机器人配置数量、线路资源。

呼叫系统性能：这是个技术问题，当高并发时，服务端无法处理，容易造成漏接、无响应等各种问题，并影响接听率。
机器人配置数量：这个主要是种收费模式，按机器人并发量进行收费。
线路资源限制：简单理解为线路中实际可外呼的sim卡限制（实际上很多种类型），算是种物理限制，只能多找一些线路，没有其他办法。

2. AI机器人

严格地来说，AI机器人就是一整套回应的话术，内容包括核心的对话流程和知识库。根据业务的不同，采用不同的技术方案。

1）两类业务场景

在业务上粗略地可分为两种场景：呼出场景、呼入场景。

呼出场景：

主要是电话营销、通知等业务。

大部分的呼出电话都是陌拜电话，例如教育培训、股票投资、医疗保险，都是广撒网的方式大量外呼。这些电话本身就是对用户时间的一种侵占，对用户来说没有意愿来配合进行问答，随时都可能被用户提前挂机。

总的来说，呼出场景的特点是：话术简单，单通价值低，用户不配合。针对此类场景，机器人采用的堆关键词的方式即可实现。

呼入场景：

主要是业务查询、预订等业务。

常见的呼入场景，例如有10086。之前拨打10086，使用的是IVR模式，需要按键操作，现在已经可以语音直接查询话费信息。由于是用户主动呼入，带有明确的目的，对电话机器人的容忍度相对较高。而机器人核心价值是帮助用户完成任务，在无法识别等情况下，可与用户确认，方便明确意图。

总结一下，呼入场景的特点是：业务稳定，单通价值高，用户配合。此类场景，就需要用到Rasa之类的聊天机器人框架，利用意图识别、实体提取完成任务。PS：呼入场景，类似于智能音箱。

2）电话机器人和在线机器人对比

本质上电话机器人与在线客服机器人相同。区别在于输入端一个是语音，一个是文本。

语音信息包含着更多无用的信息，文本要比语音更加精准和高效。当然语音中包含的语气、语速、情绪等也有部分价值，例如可以用来判断男女。

电话机器人由于需要先ASR（语音识别），转成文本之后，再NLP（语义理解），而在线机器人是直接进行NLP处理。因此，在最终的理解效果上，电话机器人的准确性会差一些。

3）语音输入的难点与方案

语音输入的难题，便是上文中所罗列的，这里不再赘述。这些难题不是目前技术可以解决的，或者说解决成本很高。这里就简要列举一些方案，具体需要在实际场景中多次尝试，才能得出最优方案。

方言问题：

最直接的方案是采用方言的ASR识别引擎。针对方言的ASR识别，在科大讯飞、阿里云等基础服务商都有提供。

问题是：第一，方言种类多，而一般识别引擎只能识别部分使用范围广的方言，如四川话、粤语；第二，不知道该用哪套识别引擎，用户范围广，在接通前都是未知的；第三，比较贵，商用成本高。

另一种是笨办法，但是也有效。通过人工巡检，将ASR识别结果中的拟声词、错别字、近似词都作为关键词积累起来，积累越多，越容易被识别。

噪音识别问题：

噪音可分为人声噪音和环境噪音。

常见的人声噪音例如：周围有人在说话、电视剧的声音等。由于设备的限制，没办法利用麦克风阵列等硬件去判断远近场，因此没有什么特别好的解决方案，毕竟电话的音频就只有8000Hz、单声道、16位。

环境噪音，在呼叫系统中就可以用滤波器、谱减法等方式降噪，还可以声音切片的长度。

例如：正常说话单个字的时长都大于200ms，过滤掉短促的噪音。此外，在送往ASR之前，还可以利用AI进行一次噪音识别，过滤之后再送往ASR识别。而ASR识别引擎本身也具备过滤噪音的功能。具体的实施方案可根据实际效果、商业化角度去搭配组合。

语气词、口头禅：

例如：嗯——这可能只是在组织语言时的停顿或者是倾听时礼貌性的反应，但会被识别成肯定的意思。

此类情况比较常见，在人工巡检过一批录音后，发现作为语气词的情景次数要大于作为肯定的情景次数。

因此，第一步是将单字的“嗯”、“哦”等词从意图中剔除，保留“嗯好的…”等更明确表达该意图的词。

第二步则是在AI对话时候，尽量不要让用户开放式回答，而是引导用户回答，比如用“是不是”、“可以吗”等结尾，潜移默化地影响用户回答“是”、“不是”、“可以”等指令明确的词。

打断、表达不清：

这个问题比较难表述，继续举个栗子：

假设AI询问儿童年龄，用户回答：“噢……我小孩4岁”，中间停顿了一下。在正常逻辑中，为让AI快速响应，在用户回答停顿的时候，已经执行下一流程。因此，这时AI可能会忽略用户后半句有价值的对话。

该问题往往容易使AI漏掉关键信息，同时也影响通话体验，给人生硬的感觉。针对该问题，目前是通过规则去控制，通过人工对通话记录的总结，制订处理规则。如什么情况下允许打断、什么条件下替换为上节点意图，这些都需要在实际场景中不断总结优化。

4）话术设计

机器人的对话设计有很多配置方式。底层基本都是Taskflow的模式，是类似于流程图，将多个节点连接起来。这种方式能够逐渐让问题的范围收敛，处理复杂的业务对话。

节点：

节点主要是针对输入的内容进行意图判断，最后根据判断分流给下一个节点。

在智能设备中经常会提及一个词叫“技能”，通过技能，可以完成特定的指令。节点也类似于技能，不过在通话场景下，范围会比技能还要大一点。

针对语音进行判断，即“技能”，可通过关键词、实体提取等方式判断意图。
针对按键进行判断，也就是IVR，这是电话独有的功能，用户可以准确地输入数字，不用担心ASR识别错误，在核对用户身份证信息等场景下特别有用。
针对系统数据进行判断，此时不需要用户输入，是由系统根据已有信息直接给出判断结果，如上一条中的身份证信息判断。

流程组：

在常见的销售、客服话术中，通常可以分为开场白、业务介绍、业务处理、结束语几个阶段。为了方便话术设计和后期优化，也会根据此类分发去设计节点流程，并用流程组作为阶段进行分隔。

5）AI效果优化
衡量一个AI机器人的好坏，要看它最终带来的收益和成本。

在呼出场景中，需要让AI最终意向率到达或者略小于人工水平，毕竟每一通电话、每一个号码都是成本的。

在呼入场景中，则需要关注问题解决率、客户满意度等。必要时刻还是得使用人工坐席兜底，因此还需要关注人工介入情况。

优化话术效果，主要通过录音巡检和分析每个节点的识别率、挂机率，为节点补充关键词、说法集，也会尝试不同的说话方式，具体的有时间再细讲。

就目前而言，纯AI接听的完成率与人工接听对比，还是有一定差距。因此真正适合纯AI的应用场景还是比较少，适合用在呼叫量大、内容单一的场景，如：电话通知、催收M0。

在其他场景下，还是以AI+人工配合更为合适。AI负责前期简单的对答，过滤和分流部分用户，再由人工更灵活地解决问题。等到收集足够多的说法集，归纳完善的话术之后，由 AI逐步接手，将人工后撤到下一节点，层层后撤，减少人工投入。

3. CRM系统

每一通电话记录都会经过CRM分析用户意向、最终通话结果。CRM系统基于业务，主要负责对客户的管理和跟进，整个CRM系统主要可分为3个方向：

对人员的管理：包括销售、客服坐席的增删改查和业务报表。
对客户的管理：涉及到客户信息、通话的意向度、完整跟进记录、状态的流转。
对资源的管理：这里的资源可以包括线路的管理运营、话术设计和优化。CRM系统较为常见，这里就不再多说，根据实际需求，进行调整和功能扩充即可。

二、主要竞争对手

图为当时做竞品分析时，归纳的竞品公司

在智能外呼这个赛道，直接竞争的是两类企业：传统的软件提供商和以AI为核心的科技公司。

客服软件提供商在客服系统、呼叫中心等产品上深耕多年，有相当完善的产品矩阵和客户资源，对客户需求、实施解决方案都是经验丰富。

AI型科技企业，则是垂直切入外呼场景，依托自身的AI技术，对单一场景进行单点突破，巩固自身的技术壁垒。只是就目前来看，AI技术的瓶颈还未突破，对智能对话、通话体验的改变不大。

除了上述两类企业外，百度云、阿里云、腾讯云之类的云服务商，利用自身优势，将技术集成到开放平台中，形成完整的行业解决方案。为企业提供ASR、NLP、TTS、呼叫系统甚至是线路等基础技术服务，降低了技术门槛，企业不需要特别的技术储备，即可搭建出自己的系统，可以说是一种降维打击。

PS：事实上AI驱动的企业，完善自身技术后，也在逐步开放AI能力，提供技术服务，为其他企业赋能。

而研究聊天机器人的企业，在NLP技术的研究和积累颇多，也容易快速切入。

三、核心竞争力

虽然说是AI机器人，核心亮点是AI。但是，在实际应用中真正利用到AI技术的并不多。

ASR：除非自身有足够多的语料和研发能力（还要考虑研发成本、更新维护能力），否则ASR大多都是通过科大讯飞、阿里云等大平台进行识别。
NLP：这个是一个技术核心，不过就目前的提升效果，通过填充关键词之类的笨办法也能达到相同效果。
TTS：在实际语音播放中，除了变量等必须由TTS合成外，大部分话术都可通过提前人工录音的方式完成，且播放效果比TTS还要好。

个人认为AI机器人的核心，不在于AI，而是基于业务场景的话术。客户不会关心技术如何先进，而是看最终的接听效果。当一个话术调整成接近人工坐席效果时，那么在这个业务场景可以说是形成了壁垒，拓展相似业务会更有优势。

本文由 @jessi 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

外呼系统的设计指南文章被收录于该专栏

共 11 篇文章12479 人已学习

诃息

3篇作品 31671总阅读量

02-276292 浏览

03-226151 浏览

02-093201 浏览

12-21875 浏览

09-223473 浏览

一诺

大佬，可以讲解一下CTI的信令和媒体流的运行流程吗?

最近来自浙江回复
觅初于影

NLP：这个是一个技术核心，不过就目前的提升效果，通过填充关键词之类的笨办法也能达到相同效果。
对于这段话，我有异议。NLP的能量是关键词根本无法比拟的，目前自然语言理解方面也大大降低了成本，相似问法语义的扩展支持度也很好。只是NLP研发门槛高，以至于很少能让客户发现NLP真正的价值。试想一下，中华文字博大精深，哪是几个关键字就能搞定的。

最近来自浙江回复
1. 兜兜转转回复觅初于影
  
  在实际落地过程中除非和合作伙伴深度合作，不然会发现枚举、正则对结果提升更快更容易。
  
  最近来自上海回复
2. 觅初于影回复兜兜转转
  
  通过多个实践项目落地，nlp的价值在不断放大，正则也不是完全放弃，只是在能量级上还是有差距的。
  
  最近来自浙江回复
3. kbckbc 回复觅初于影
  
  多年nlp对话领域经验告诉你，多轮对话领域，正则比纯模型好用。原因很简单：确定性。在项目交付过程中便与和客户解释并维保。
  
  最近来自上海回复
4. 觅初于影回复kbckbc
  
  部分认同。但，确定性不代表覆盖率，需要人肉堆无数条数据，本身客户也不太能接受，若需要提高确定性，是可以设置较高的阈值，除非行业要求0错误，还是以行业要求来定义。（也是多年nlp对话领域经验告诉我的）
  
  最近来自浙江回复
5. Rie 回复觅初于影
  
  就实际应用来说，纯关键字（正则）的优势比较突出，nlp的语义发散在呼叫场景应用中产生了很多负面效果。正则的缺陷也很明显，无法覆盖实体类的表达。长远意义看，应当针对呼叫的场景特性设置更合适的语义规则，而不是沿用智能客服的那种算法。
  
  最近回复
6. 觅初于影回复Rie
  
  后半段同意，需要针对具体场景选择更合适的方案，而不是一刀切！但不可否认，nlp的能量级是远超正则的。
  
  最近来自浙江回复
7. Big_Power 回复觅初于影
  
  哈哈哈哈，有幸看到一个从20年聊到22年的话题，来自23年的小弟加入讨论。正则非常好用，快速服务客户落地业务我选择正则，并且在业务taskflow不是那么明确的情况下（大多数情况下都是需要调整的），正则也可以快速迭代业务能力。但对于业务较为稳定，且客户价值较大或者具备标杆的行业就非常值得应用NLP能力了，效果的提升不是正则可比的。另外就是也可外呼机器人公司的特点，如果在深挖某垂域，NLP能力必不可少，甚至需要构建图谱，问答库，通用技能等高阶能力。
  
  最后：GPT真强，产品层面将GPT能力接入业务，对一般NLP（就指非特大模型吧）和正则能力降维打击，哈哈哈哈，希望接口不要太贵。
  
  最近来自广东回复
8. Big_Power 回复Big_Power
  
  大家都是跨年沟通的，不晓得24年我能收到回复不
  
  最近来自广东回复
9. keeper 回复Big_Power
  
  GPT效果是真不错，有了GPT要啥正则，要啥相似问，告诉它要干啥，理解能力超强
  
  最近来自北京回复
Boom

可以分享一下竞品分析吗？

最近来自浙江回复