做了一年客服型外呼 Agent,我发现旧的效果评估体系正在失效

0 评论 529 浏览 0 收藏 20 分钟

当外呼机器人从机械的'念话术'进化为具备大模型能力的Agent,传统的评估体系正在面临崩溃。本文通过真实案例揭示了AI客服为何会在看似完美的流程中突然失控,深度剖析了三类失效的关键指标,并提出全新的三层评估框架,帮助产品经理重建适合AI时代的质检标准。

先说一个让我当场卡住的评测案例。

那是去年我们接的一个客服型外呼项目,做完一轮迭代后我自己抽查通话记录,翻到一通电话——接通了,对话轮次很高,用户问得很细,机器人也一直在答,从头到尾”流程”看起来是走完的。按我们当时那套评估口径,这通电话所有指标都是绿的。

但我把录音听完,后背发凉。

这通电话拖了很久,用户一个问题接一个问题地追问,对话上下文越堆越长。到后半段,AI 开始有点”飘”了:先是答非所问,后来干脆开始胡言乱语,最后竟然把我们配置在系统里的内部 SOP 流程,一条一条地念给了用户听——那本来是给机器人自己看的作业指导,不是给用户的话术。

我盯着那条记录看了很久。问题不在于”这通电话出了事故”,事故谁都会有。真正让我卡住的是另一件事:我们那套评估体系,根本没有任何一个指标会因为这通电话而报警。 接通率正常、对话轮次甚至偏高(在旧口径里这是好事)、流程完成率正常、没有转人工。从数据看,这是一通”健康”的电话。

那一刻我意识到,我们一直在用一套为”上一代外呼”设计的尺子,去量一个已经变了形的东西。

这篇文章想聊的就是这件事:当外呼机器人从”念话术”进化成”大模型 Agent”,为什么旧的效果评估体系会失效,哪些指标已经测不准了,又该补进来什么。我做的是客服解答型外呼,下面的讨论也主要基于这个场景。

一、旧评估体系的底层假设,已经不成立了

要讲清楚”为什么失效”,得先讲清楚旧体系是为什么设计的。

传统的话术流外呼,本质是一个确定性系统。它的核心是一张流程图——AI 训练师把业务场景拆成一个个节点,每个节点预设好话术,节点之间靠意图判断来分流。用户说了什么,机器人就跳到对应节点,念对应的那段话。它能说出来的每一句话,都是事先写死在话术库里的。

正因为系统是确定性的,旧的评估体系才能那样设计。你回头看传统外呼那套核心指标——接通率、节点命中率、流程完成率、转人工率——会发现它们有一个共同点:全是”流程合规类”指标。它们测的不是机器人”说得好不好”,而是机器人”有没有按图走”。

这套体系能成立,是因为它背后压着一个谁都没明说、但所有人都默认的假设:

机器人不会说出话术库里没有的话。

只要这个假设成立,评估就可以很省心。机器人最坏的情况无非是”走错节点”或者”流程没走完”,这些用流程类指标都能抓到。它不可能”乱说”,因为它根本没有”乱说”的能力——它的嘴是被话术库焊死的。

大模型外呼,把这个假设直接打破了。

大模型外呼是一个概率性系统。它不再从话术库里取一句固定的话,而是基于上下文实时生成一句话。这带来的好处很明显:对话自然了,能处理预设之外的问题了,不用再为每一种说法穷举相似问了。但代价是——它能说出的话,不再有边界。它可能说得很好,也可能说出话术库里从来没有、你也从来没想到它会说的东西。我开头那个 SOP 泄露的案例,就是这个代价的具象化。

一旦”机器人不会乱说”这个地基塌了,建在它上面的整套流程合规类评估体系,就跟着晃了。这不是某个指标不准的问题,是整套尺子的刻度对不上了。

二、三类旧指标,是怎么失效的

具体说,旧体系里有三类指标,在大模型外呼下出了问题。它们不是”略有偏差”,而是有的失去了计算对象,有的甚至正负号反了。

1. 意图识别准确率:失去了计算对象

传统外呼里,”意图识别准确率”是个硬指标。它的算法很清晰:用户这句话,机器人有没有正确判断该跳到哪个节点。命中率是多少,一目了然。这个指标之所以能算,是因为有”节点”这个明确的、离散的对象作为标尺——意图就是节点的入口,识别对不对,看跳没跳对节点就行。

但大模型外呼里,”节点”这个东西在很多实现里已经被弱化甚至取消了。对话不再是节点间的跳转,而是模型基于整段上下文的连续生成。这时候你再问”意图识别准确率是多少”,会发现这个指标失去了它原本的计算对象——没有节点了,你拿什么去比对”跳对没跳对”?

这个指标不是变得不重要了,是它的旧定义失效了。”机器人有没有理解用户”这件事还需要评估,但它得被重新定义。比如,从”节点命中”改成”应答相关性”——不再看它跳到哪,而是看它生成的这句回答,和用户真实诉求之间的语义匹配程度。评估的对象,要从”流程动作”换成”应答内容本身”。

2. 流程完成率:从成功标志变成了欺骗性指标

传统外呼里,”流程走完了”基本等于”这通电话成功了”。流程完成率因此是个很受重视的结果指标。

但在大模型外呼里,这个指标开始骗人。

因为”流程走完”和”过程没出问题”,已经被解耦了。机器人完全可能走完了整个流程,但中间胡说了一大通。我开头那个案例就是活的反例——那通电话的流程是”完整”的,可中间它把 SOP 念出去了。流程完成率告诉你这通电话成功了,事实是它是一次严重事故。

旧时代流程完成率可信,是因为确定性系统里”走完流程”必然意味着”每一步都念了正确的话”。大模型把这个绑定关系拆开了:走完流程,不再保证过程合规。于是流程完成率从一个结果指标,悄悄变成了一个具有欺骗性的指标——它依然是绿的,但绿色背后的含义已经变了。继续盯着它,你会对大量出过问题的电话视而不见。

3. 对话轮次与通话时长:正负号反了

这是我觉得最值得讲的一个。

传统外呼里,对话轮次和通话时长,通常被当作正向信号。用户愿意跟机器人多聊几轮、聊得久一点,一般说明用户是投入的、有意向的、问题在被认真处理。轮次太低反而要警惕——可能是用户没耐心,几句话就挂了。所以旧口径里,轮次和时长偏高,往往算好事。

大模型外呼里,这个信号的方向,在客服场景下很可能是反的。

回到我开头那个案例:那通电话出事,恰恰是因为它轮次太高、时长太长。用户一个问题接一个问题地追问,对话上下文不断累积,越堆越长。而上下文越长,大模型”飘”的概率就越高——它要在越来越长的历史里保持一致性,注意力被稀释,幻觉的风险随之上升。那通电话不是”聊得越多越投入”,而是”聊得越多越危险”。

也就是说,同一个指标——对话轮次——在传统外呼里偏高是健康信号,在大模型外呼里偏高却可能是幻觉的高危预警。它的正负号反了。 如果你把旧口径直接搬过来,会把最该被预警的那批电话,当成表现最好的那批。

这三个指标的遭遇其实是同一个故事的三个侧面:旧指标都是为”机器人不会乱说”那个假设服务的,假设没了,有的指标失去了标尺,有的失去了可信度,有的甚至意义反转。光是修修补补不够,得往体系里补新的东西。

三、需要补进来的三个新维度

如果说上一节是”拆”,这一节就是”补”。大模型外呼带来了旧体系完全没覆盖的几类问题,对应地需要三个新维度。

1. 知识库召回质量:不只看”召回了没有”

客服型外呼基本都是 RAG 架构——机器人要回答用户问题,得先从知识库里把相关内容检索出来,再交给大模型组织成话。所以知识库召回质量,是第一个必须进体系的新维度。

但这里要拆细。我见过不少团队只看一个”召回率”,这不够,至少要拆成两层:

一是召回成功率——用户问的这个问题,知识库里到底有没有把对应的条目检索出来。二是召回相关性——检索出来的条目,是不是真的和用户问题对口,有没有召回一堆看着沾边、实则答非所问的内容。

为什么必须拆开?因为真正危险的情况,藏在两者的夹缝里:召回失败了,但模型没有承认”我不知道”,而是硬着头皮答了。 确定性系统里召回失败,机器人顶多沉默或者转人工;概率性系统里召回失败,模型会用它的语言能力把空白”填”上——这就是幻觉最高发的场景之一。所以评估召回质量,光看”召回了多少”没用,得盯住”召回失败时模型有没有兜住”。

2. 拟人化与情绪承接:把感性的词拆成能考核的项

我们做过滴滴的司机端外呼项目,这件事在那个项目里体会特别深。

司机端的客服外呼,跟普通的零售客服很不一样。司机是靠这个养家的,压力大、情绪很实。一个司机可能因为一直接不到单而烦躁,也可能因为接到一个要跑很远空程的单子而窝火。他打进来或者接起来的时候,往往是带着情绪的。这种时候,我们的 AI 第一件该做的事不是”解决问题”,而是先接住他的情绪——你得让他感觉到对面这个声音听懂了他的难处,而不是一个冷冰冰的应答机。情绪安抚之后,才是第二件事:很多司机其实是对功能设置不熟,需要 AI 一步步引导他,比如怎么看热力图去订单密集的区域、怎么提升出行分、怎么打开顺风车的顺路接单。

这里的关键是:如果 AI 上来不管司机什么情绪,张口就背”设置出行分请您打开第几个菜单”,这通电话的流程完成率可能很好看——引导步骤一步没落。但司机的体验是崩的,他要的安抚一点没给到。这又一次印证了前面那个判断:流程完成率会骗人。

“拟人化”本身是个很感性的词,没法直接拿去考核。要进评估体系,就得把它拆成可观察的子项。比如语音自然度——停顿、语气、节奏像不像真人,有没有明显的机械感。比如情绪承接率——在那些用户明显带情绪的对话里,机器人有没有先做安抚回应,而不是无视情绪直接推进流程。客服型外呼里,这个维度不是”锦上添花”,它直接影响用户挂不挂断电话,必须进体系。

3. 风险与边界:旧体系完全空白的一块

最后这个维度,是旧体系里完全没有、但大模型外呼必须补上的——风险与边界。

我开头那个 SOP 泄露的案例,最终就归到这里。这类问题在确定性系统里根本不存在,所以旧体系压根没有对应指标;但在概率性系统里它是真实且高频的风险。需要被纳入评估的至少有这么几项:幻觉率——机器人生成了与事实或知识库不符内容的比例;越界应答率——机器人回答了它本不该回答、超出业务范围的问题的比例;以及内部信息泄露——像 SOP、内部流程、配置话术这种本该机器人自己看的内容,有没有被说给用户。

这个维度和前面所有指标都不一样:前面那些指标是”打分”性质的,越高越好或越低越好;风险维度是”红线”性质的,一票否决。一通电话哪怕转化做得再漂亮、流程再完整,只要踩了信息泄露这条线,它就该被判定为事故,而不是用别的好指标去把它平均掉。

四、我主张的评估框架:过程、质量、风险三层

拆完也补完了,最后把它收成一个能用的框架。

我自己在用的,是把外呼 Agent 的评估指标分成三层。这三层不是并列罗列,而是有递进关系的:

第一层,过程层——对话维持得好不好。 包括对话轮次、通话时长、打断后的恢复成功率这类指标。它回答的是”这通对话作为一段交互,是否顺畅”。注意,这一层的指标(尤其是轮次和时长)要按前面说的,重新校准方向——在客服型外呼里,它们偏高更可能是预警而非好事。

第二层,质量层——答得对不对、像不像人。 包括知识库召回质量(召回成功率 + 召回相关性)、应答相关性、拟人化与情绪承接。它回答的是”机器人这通电话,专业能力和服务体验合不合格”。这一层是客服型外呼的核心战场。

第三层,风险层——有没有闯祸。 包括幻觉率、越界应答率、内部信息泄露。它回答的是”这通电话有没有突破底线”。这一层是一票否决的,任何一项触线,整通电话直接判定为不合格,不参与其他指标的平均。

为什么是这个顺序?因为它对应了大模型外呼里风险的优先级:一通电话首先不能闯祸(风险层兜底),其次要答得专业、有温度(质量层是主体),最后才是聊得顺不顺(过程层是基础体感)。旧体系的问题,恰恰是只有”过程层”和半个”质量层”,而完全缺失了”风险层”——它默认机器人不会闯祸,所以根本没设这道闸。

写到这里,其实可以把这一年的体会浓缩成一句话:

做传统外呼的评估,我们关心的是”机器人做到了什么”;做大模型外呼的评估,我们更要关心的是”机器人有没有失控”。

评估体系的重心,得跟着这个转变挪过去。这不是推翻重来——接通率、转化率这些结果指标依然有用——而是要清醒地知道,哪些旧指标已经测不准了,哪些新风险还裸奔着没人管。尺子变了形,得自己重新刻一把。

这是我目前的思考,肯定还不完整。如果你也在做大模型外呼,欢迎交流,尤其想听听不同业务场景下,大家是怎么给”风险层”定红线的。

本文由 @洋洋 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!