AI 产品评测体系设计——别让主观感觉骗了你

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI 产品评测体系设计——别让主观感觉骗了你

鸣老师

2026-04-19

0 评论 147 浏览 0 收藏

12 分钟

在AI产品的迭代过程中，「感觉」往往是最大的误导者。当技术评测、产品体验与业务价值交织在一起时，如何建立一套科学的评测体系成为关键挑战。本文系统拆解AI产品三大评测层次（技术、产品、业务），揭示从准确率到用户满意度的量化方法论，并附上客服场景的真实案例，助你告别主观臆断，用数据驱动产品进化。

「感觉新版本比旧版本好用多了。」

这是上周评审会上产品同学说的话。

我问他「好用多了是多少？有数据吗？」

他愣了一下「呃，就是感觉响应更快了，回答更准了。」

「感觉」是最不靠谱的评判标准。

今天聊聊怎么给 AI 产品建立一套靠谱的评测体系。

传统软件好判断，按钮能不能点、功能正不正常、性能快不快。

AI 产品不一样

第一个问题是效果是概率性的。传统软件输入 1 加 1 必须返回 2 不然就是 Bug。AI 产品问「推荐一本好书」返回什么都可能是对的。AI 的输出是概率性的没有绝对正确的答案。

第二个问题是主观性太强。「这个回答好不好」不同人的判断可能完全不同。同一个回答 A 觉得太啰嗦了，B 觉得解释得很清楚，C 觉得没回答到点子上。主观感受很难统一标准。

第三个问题是变量太多。AI 产品的效果受很多因素影响，模型版本、Prompt 写法、上下文长度、用户问法、知识库质量。改一个变量效果可能完全不同。没有系统的评测根本不知道改动是好是坏。

一个完整的 AI 产品评测体系需要三个层次。

第一个层次是技术评测，评估模型本身的能力。常见指标包括准确率、召回率、F1 分数、响应延迟、Token 消耗。适用场景是模型选型、技术优化。

第二个层次是产品评测，评估功能在产品层面的体验。常见指标包括任务完成率、用户满意度、交互轮次、会话放弃率。适用场景是功能迭代、体验优化。

第三个层次是业务评测，评估对业务目标的贡献。常见指标包括效率提升节省多少时间、成本降低节省多少钱、质量提升错误率下降多少、收入增长带来多少订单。适用场景是 ROI 评估、决策支持。

技术评测怎么做呢

首先要建立测试集。测试集是评测的基础。要求是覆盖常见场景、包含边界情况、有标准答案或参考答案、定期更新。

然后是自动化评测。能自动评测的就不要人工评。客观题直接对比答案包括精确匹配、关键词包含、语义相似度。主观题用 AI 评测 AI，用 GPT-4 给回答打分，设定评分标准也就是 Rubric，多次评测取平均。

关键指标包括准确率是正确回答数除以总回答数适用于事实性问答，召回率是召回的正确答案除以所有正确答案适用于 RAG 检索，延迟 P50 和 P99 是响应时间分位数适用于性能评估，幻觉率是包含虚假信息的回答比例适用于可信度评估。

产品评测怎么做呢

技术指标好看产品体验可能很差。所以还需要产品层面的评测。

第一个指标是任务完成率。定义是用户能不能完成他想做的事。计算是成功完成任务的会话数除以总会话数。什么算「完成」呢，用户明确表示满意，用户完成了操作比如下单提交，会话正常结束没有中途放弃。

第二个指标是交互轮次。定义是完成一个任务需要几轮对话。计算是每个任务的平均对话轮次。意义是轮次越少效率越高，但不能为了减少轮次牺牲准确性。

第三个指标是用户满意度。获取方式包括会话结束后让用户打分、抽样做用户访谈、分析用户行为比如有没有转人工有没有重复问。注意满意度调查的样本要足够大否则偏差很大。

第四个指标是会话放弃率。定义是用户中途放弃没有完成任务的比例。计算是中途放弃的会话数除以总会话数。什么算「放弃」呢，连续几条消息没有响应，直接关闭对话窗口，转人工客服，表达不满比如「没用」「算了」。

业务评测怎么做呢

技术好产品好但业务没价值也是白搭。

效率指标方面看处理时间，优化前平均处理一个工单需要 15 分钟优化后需要 5 分钟。看处理量，优化前每人每天处理 30 个工单优化后处理 60 个。

成本指标方面看人力成本，减少了多少人工工作量节省了多少人力成本。看 API 成本，每次调用花多少钱，单位业务量的 AI 成本。

质量指标方面看错误率，优化前人工审核错误率 5% 优化后 AI 辅助后错误率 2%。看合规率，内容审核的准确率、漏检率、误检率。

收入指标方面看转化率，AI 推荐带来的转化率对比不用 AI 的转化率。看客单价，AI 推荐的商品平均单价对比人工推荐。

评测有几个关键实践

第一个实践是建立 Baseline。任何优化都要有对比基准。错误做法是优化完直接上线「感觉」变好了。正确做法是先测 Baseline 再测优化后的效果对比数据。比如 Baseline 旧版本准确率 75%，优化后新版本准确率 82%，提升 7 个百分点。

第二个实践是控制变量。一次只改一个变量否则不知道是哪个改动带来的效果。错误做法是同时改了 Prompt 换了模型加了知识库，效果变好了但不知道是哪个起的作用。正确做法是只改 Prompt 测效果，只换模型测效果，只加知识库测效果。

第三个实践是 A/B 测试。把用户随机分成两组，A 组用旧版本 B 组用新版本，对比两组的数据。注意样本量要足够大，分组要随机，运行时间要足够长。

第四个实践是持续监控。上线不是结束而是开始。建立监控看板核心指标每天看，异常自动报警，定期 Review。监控什么呢，任务完成率、响应延迟、错误率、用户投诉。

分享一个真实案例

我们帮一个客服团队做的评测体系。背景是 AI 客服上线 3 个月老板问「效果怎么样」，没人能回答。

我们做了什么呢。

第一步建立测试集。整理了 500 个真实用户问题分类标注，产品咨询 200 个，售后问题 150 个，投诉建议 100 个，其他 50 个。每个问题都有参考答案。

第二步跑 Baseline。用测试集测了一遍现有系统，整体准确率 68%，产品咨询准确率 82%，售后问题准确率 61%，投诉建议准确率 45%。问题很明显售后和投诉场景比较弱。

第三步针对性优化。针对弱项做了优化，补充了售后知识库，优化了投诉处理的 Prompt，增加了情绪识别。

第四步评测优化效果。优化后重新测，整体准确率 68% 提升到 78%，售后问题准确率 61% 提升到 76%，投诉建议准确率 45% 提升到 62%。

第五步业务指标对比。上线优化版本后人工介入率 35% 降到 22%，用户满意度 3.2 提升到 3.8 满分 5 分，平均响应时间 8 秒降到 3 秒。

关键收获是有数据才能说话，之前大家只能说「感觉」现在能说「准确率提升 10 个点」。发现真正的问题，数据显示售后场景弱这是之前没意识到的。验证优化效果，优化不是盲目的有数据验证。建立持续改进机制，每月跑一次评测持续优化。

说说常见误区

第一个误区是只看技术指标。模型准确率 95% 但用户满意度只有 60%。为什么呢，可能是回答太长、太专业、太冷冰冰。技术好不等于产品好。

第二个误区是样本量太小。测了 20 个案例得出「准确率 90%」的结论。这个数据没有统计意义，样本量至少要有几百个。

第三个误区是测试集和真实场景脱节。测试集是产品经理自己想的问题。真实用户的问题千奇百怪测试集覆盖不到。测试集要从真实数据中抽样。

第四个误区是评测一次就完事。上线前测了一次之后再也不测了。但模型会升级、知识库会变化、用户问题也在变化。评测要持续做不是一次性的。

做 AI 产品最怕的就是「自我感觉良好」。

数据是最诚实的。

建立评测体系的核心是有标准让什么是好什么是差定义清楚，可量化不是「感觉好」而是「准确率 82%」，可对比有 Baseline 有 A/B 测试，可持续不是一次性的是持续监控的。

如果你的 AI 产品还没有评测体系强烈建议尽快建一个。

不然你永远不知道自己是在进步还是在原地踏步。

本文由 @鸣老师原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

鸣老师

AI行业深度从业、前沿探索者；关注我，获取有价值、有深度的AI时代升级干货

34篇作品 73161总阅读量

2023年，企业的线上低成本获客还能怎么做？

03-175070 浏览

小红书上，商家想把情人节推成另一个「双11」

02-174930 浏览

亚马逊功能设计分析：ERP FBA+头程

02-106938 浏览

横扫各业的“AIGC+”，夸完还得冷静

03-293545 浏览

估值20亿的kimi-Chat真香

11-1919313 浏览

目前还没评论，等你发挥！

产品经理进阶：IPD体系之新产品立项CDP流程

08-307510 浏览
亚马逊工作方法探秘：“用户至上”背后的机制

03-214939 浏览
续聊！基金多场景下（基金转换/转托管/募集/清算等）资金流向

11-203273 浏览