做了一年客服型外呼 Agent，我发现旧的效果评估体系正在失效

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

做了一年客服型外呼 Agent，我发现旧的效果评估体系正在失效

洋洋

2026-05-22

0 评论 1754 浏览 2 收藏

20 分钟

当外呼机器人从机械的'念话术'进化为具备大模型能力的Agent，传统的评估体系正在面临崩溃。本文通过真实案例揭示了AI客服为何会在看似完美的流程中突然失控，深度剖析了三类失效的关键指标，并提出全新的三层评估框架，帮助产品经理重建适合AI时代的质检标准。

先说一个让我当场卡住的评测案例。

那是去年我们接的一个客服型外呼项目，做完一轮迭代后我自己抽查通话记录，翻到一通电话——接通了，对话轮次很高，用户问得很细，机器人也一直在答，从头到尾”流程”看起来是走完的。按我们当时那套评估口径，这通电话所有指标都是绿的。

但我把录音听完，后背发凉。

这通电话拖了很久，用户一个问题接一个问题地追问，对话上下文越堆越长。到后半段，AI 开始有点”飘”了：先是答非所问，后来干脆开始胡言乱语，最后竟然把我们配置在系统里的内部 SOP 流程，一条一条地念给了用户听——那本来是给机器人自己看的作业指导，不是给用户的话术。

我盯着那条记录看了很久。问题不在于”这通电话出了事故”，事故谁都会有。真正让我卡住的是另一件事：我们那套评估体系，根本没有任何一个指标会因为这通电话而报警。 接通率正常、对话轮次甚至偏高（在旧口径里这是好事）、流程完成率正常、没有转人工。从数据看，这是一通”健康”的电话。

那一刻我意识到，我们一直在用一套为”上一代外呼”设计的尺子，去量一个已经变了形的东西。

这篇文章想聊的就是这件事：当外呼机器人从”念话术”进化成”大模型 Agent”，为什么旧的效果评估体系会失效，哪些指标已经测不准了，又该补进来什么。我做的是客服解答型外呼，下面的讨论也主要基于这个场景。

一、旧评估体系的底层假设，已经不成立了

要讲清楚”为什么失效”，得先讲清楚旧体系是为什么设计的。

传统的话术流外呼，本质是一个确定性系统。它的核心是一张流程图——AI 训练师把业务场景拆成一个个节点，每个节点预设好话术，节点之间靠意图判断来分流。用户说了什么，机器人就跳到对应节点，念对应的那段话。它能说出来的每一句话，都是事先写死在话术库里的。

正因为系统是确定性的，旧的评估体系才能那样设计。你回头看传统外呼那套核心指标——接通率、节点命中率、流程完成率、转人工率——会发现它们有一个共同点：全是”流程合规类”指标。它们测的不是机器人”说得好不好”，而是机器人”有没有按图走”。

这套体系能成立，是因为它背后压着一个谁都没明说、但所有人都默认的假设：

机器人不会说出话术库里没有的话。

只要这个假设成立，评估就可以很省心。机器人最坏的情况无非是”走错节点”或者”流程没走完”，这些用流程类指标都能抓到。它不可能”乱说”，因为它根本没有”乱说”的能力——它的嘴是被话术库焊死的。

大模型外呼，把这个假设直接打破了。

大模型外呼是一个概率性系统。它不再从话术库里取一句固定的话，而是基于上下文实时生成一句话。这带来的好处很明显：对话自然了，能处理预设之外的问题了，不用再为每一种说法穷举相似问了。但代价是——它能说出的话，不再有边界。它可能说得很好，也可能说出话术库里从来没有、你也从来没想到它会说的东西。我开头那个 SOP 泄露的案例，就是这个代价的具象化。

一旦”机器人不会乱说”这个地基塌了，建在它上面的整套流程合规类评估体系，就跟着晃了。这不是某个指标不准的问题，是整套尺子的刻度对不上了。

二、三类旧指标，是怎么失效的

具体说，旧体系里有三类指标，在大模型外呼下出了问题。它们不是”略有偏差”，而是有的失去了计算对象，有的甚至正负号反了。

1. 意图识别准确率：失去了计算对象

传统外呼里，”意图识别准确率”是个硬指标。它的算法很清晰：用户这句话，机器人有没有正确判断该跳到哪个节点。命中率是多少，一目了然。这个指标之所以能算，是因为有”节点”这个明确的、离散的对象作为标尺——意图就是节点的入口，识别对不对，看跳没跳对节点就行。

但大模型外呼里，”节点”这个东西在很多实现里已经被弱化甚至取消了。对话不再是节点间的跳转，而是模型基于整段上下文的连续生成。这时候你再问”意图识别准确率是多少”，会发现这个指标失去了它原本的计算对象——没有节点了，你拿什么去比对”跳对没跳对”？

这个指标不是变得不重要了，是它的旧定义失效了。”机器人有没有理解用户”这件事还需要评估，但它得被重新定义。比如，从”节点命中”改成”应答相关性”——不再看它跳到哪，而是看它生成的这句回答，和用户真实诉求之间的语义匹配程度。评估的对象，要从”流程动作”换成”应答内容本身”。

2. 流程完成率：从成功标志变成了欺骗性指标

传统外呼里，”流程走完了”基本等于”这通电话成功了”。流程完成率因此是个很受重视的结果指标。

但在大模型外呼里，这个指标开始骗人。

因为”流程走完”和”过程没出问题”，已经被解耦了。机器人完全可能走完了整个流程，但中间胡说了一大通。我开头那个案例就是活的反例——那通电话的流程是”完整”的，可中间它把 SOP 念出去了。流程完成率告诉你这通电话成功了，事实是它是一次严重事故。

旧时代流程完成率可信，是因为确定性系统里”走完流程”必然意味着”每一步都念了正确的话”。大模型把这个绑定关系拆开了：走完流程，不再保证过程合规。于是流程完成率从一个结果指标，悄悄变成了一个具有欺骗性的指标——它依然是绿的，但绿色背后的含义已经变了。继续盯着它，你会对大量出过问题的电话视而不见。

3. 对话轮次与通话时长：正负号反了

这是我觉得最值得讲的一个。

传统外呼里，对话轮次和通话时长，通常被当作正向信号。用户愿意跟机器人多聊几轮、聊得久一点，一般说明用户是投入的、有意向的、问题在被认真处理。轮次太低反而要警惕——可能是用户没耐心，几句话就挂了。所以旧口径里，轮次和时长偏高，往往算好事。

大模型外呼里，这个信号的方向，在客服场景下很可能是反的。

回到我开头那个案例：那通电话出事，恰恰是因为它轮次太高、时长太长。用户一个问题接一个问题地追问，对话上下文不断累积，越堆越长。而上下文越长，大模型”飘”的概率就越高——它要在越来越长的历史里保持一致性，注意力被稀释，幻觉的风险随之上升。那通电话不是”聊得越多越投入”，而是”聊得越多越危险”。

也就是说，同一个指标——对话轮次——在传统外呼里偏高是健康信号，在大模型外呼里偏高却可能是幻觉的高危预警。它的正负号反了。 如果你把旧口径直接搬过来，会把最该被预警的那批电话，当成表现最好的那批。

这三个指标的遭遇其实是同一个故事的三个侧面：旧指标都是为”机器人不会乱说”那个假设服务的，假设没了，有的指标失去了标尺，有的失去了可信度，有的甚至意义反转。光是修修补补不够，得往体系里补新的东西。

三、需要补进来的三个新维度

如果说上一节是”拆”，这一节就是”补”。大模型外呼带来了旧体系完全没覆盖的几类问题，对应地需要三个新维度。

1. 知识库召回质量：不只看”召回了没有”

客服型外呼基本都是 RAG 架构——机器人要回答用户问题，得先从知识库里把相关内容检索出来，再交给大模型组织成话。所以知识库召回质量，是第一个必须进体系的新维度。

但这里要拆细。我见过不少团队只看一个”召回率”，这不够，至少要拆成两层：

一是召回成功率——用户问的这个问题，知识库里到底有没有把对应的条目检索出来。二是召回相关性——检索出来的条目，是不是真的和用户问题对口，有没有召回一堆看着沾边、实则答非所问的内容。

为什么必须拆开？因为真正危险的情况，藏在两者的夹缝里：召回失败了，但模型没有承认”我不知道”，而是硬着头皮答了。 确定性系统里召回失败，机器人顶多沉默或者转人工；概率性系统里召回失败，模型会用它的语言能力把空白”填”上——这就是幻觉最高发的场景之一。所以评估召回质量，光看”召回了多少”没用，得盯住”召回失败时模型有没有兜住”。

2. 拟人化与情绪承接：把感性的词拆成能考核的项

我们做过滴滴的司机端外呼项目，这件事在那个项目里体会特别深。

司机端的客服外呼，跟普通的零售客服很不一样。司机是靠这个养家的，压力大、情绪很实。一个司机可能因为一直接不到单而烦躁，也可能因为接到一个要跑很远空程的单子而窝火。他打进来或者接起来的时候，往往是带着情绪的。这种时候，我们的 AI 第一件该做的事不是”解决问题”，而是先接住他的情绪——你得让他感觉到对面这个声音听懂了他的难处，而不是一个冷冰冰的应答机。情绪安抚之后，才是第二件事：很多司机其实是对功能设置不熟，需要 AI 一步步引导他，比如怎么看热力图去订单密集的区域、怎么提升出行分、怎么打开顺风车的顺路接单。

这里的关键是：如果 AI 上来不管司机什么情绪，张口就背”设置出行分请您打开第几个菜单”，这通电话的流程完成率可能很好看——引导步骤一步没落。但司机的体验是崩的，他要的安抚一点没给到。这又一次印证了前面那个判断：流程完成率会骗人。

“拟人化”本身是个很感性的词，没法直接拿去考核。要进评估体系，就得把它拆成可观察的子项。比如语音自然度——停顿、语气、节奏像不像真人，有没有明显的机械感。比如情绪承接率——在那些用户明显带情绪的对话里，机器人有没有先做安抚回应，而不是无视情绪直接推进流程。客服型外呼里，这个维度不是”锦上添花”，它直接影响用户挂不挂断电话，必须进体系。

3. 风险与边界：旧体系完全空白的一块

最后这个维度，是旧体系里完全没有、但大模型外呼必须补上的——风险与边界。

我开头那个 SOP 泄露的案例，最终就归到这里。这类问题在确定性系统里根本不存在，所以旧体系压根没有对应指标；但在概率性系统里它是真实且高频的风险。需要被纳入评估的至少有这么几项：幻觉率——机器人生成了与事实或知识库不符内容的比例；越界应答率——机器人回答了它本不该回答、超出业务范围的问题的比例；以及内部信息泄露——像 SOP、内部流程、配置话术这种本该机器人自己看的内容，有没有被说给用户。

这个维度和前面所有指标都不一样：前面那些指标是”打分”性质的，越高越好或越低越好；风险维度是”红线”性质的，一票否决。一通电话哪怕转化做得再漂亮、流程再完整，只要踩了信息泄露这条线，它就该被判定为事故，而不是用别的好指标去把它平均掉。