AI 产品经理如何从 0 到 1 搭建测试集:以智能购车问答为例

3 评论 347 浏览 0 收藏 8 分钟

AI产品的验收标准正成为行业痛点,从购车问答到权益核销,模型幻觉与评测缺失让产品经理陷入主观判断的泥潭。本文深度拆解测试集设计七步法,揭示如何将业务风险转化为结构化指标,从模型选型到Prompt优化的全链路避坑指南,为AI产品经理提供从玄学到工程化的实战方法论。

AI 产品验收的困境

这两年做 AI 产品的产品经理越来越多,但一个现实问题很快浮现,AI 功能到底怎么验收?传统功能可以看流程是否跑通、接口是否返回正确结果,但 AI 问答完全不一样。同一个问题模型每次措辞可能都不同,答案看起来似乎都没什么毛病,今天测试体验不错不代表明天换参数后还能稳定。没有测试集,产品验收靠感觉,这个版本好像回答得更自然了但说不清好在哪里;Prompt 优化变成玄学,改一句提示词试几条就上线;Bad Case 修掉了但下个版本又复现,因为没有回归机制。

为什么购车问答需要单独的评测体系

智能购车问答和普通闲聊最大的区别是它会直接影响用户决策。我们遇到过一个典型 case,用户问这款车适合三口之家吗,模型回答适合,空间大续航长,看起来没毛病,但产品 review 时发现这个答案不合格。真正有帮助的回答应该结合空间数据、安全配置、用车场景和预算来回答,而不是笼统说一句空间大。

更要命的是,有次模型在回答优惠时自行编造了一条本月购车赠送充电桩的权益,运营团队发现后紧急下线处理。这件事之后团队才真正意识到,在购车这种高决策成本场景中,AI 问答的质量不能只看顺不顺,还要看参数是否准确、信息是否完整、是否抑制了幻觉和过度承诺。测试集的意义,就是把好答案的标准从主观判断变成可复用、可评测的样本集合。

测试集的核心设计思路

很多团队一开始做测试集时容易当成收集一百条问题的任务。我们早期也犯过这个错,第一批只有五十条问题,全是 XX 车型续航多少这类简单问答题。结果 Prompt 一改,简单问题都答得很好,但用户实际常问的家用选哪款、和 XX 比怎么样全翻车了。

真正可用的测试集不是问题数量的堆叠,而是对用户决策链路的覆盖,至少包括七类,基础知识类(参数准确不能模糊)、价格权益类(与业务规则强相关最易出幻觉)、决策辅助类(把用户需求映射到卖点而非罗列参数)、对比类(考验知识结构化程度)、流程服务类(引导试驾预约和下订等下一步)、边界问题(测试模型是否知道自己不知道)、幻觉高风险类(看模型在诱导下能否克制)。

每条测试样本也应结构化,包含用户问题、场景分类、期望要点、知识来源、是否需要检索、是否允许归纳、幻觉风险和评分维度。这样当模型答错时,才能判断是知识库缺失、检索未命中、模型未用检索结果还是 Prompt 约束不足。

评测指标与团队协作中的摩擦

评测指标的设计本身也是不断对齐的过程。我们一开始只看准确性,但很快发现准确性高的答案不一定有用。用户问这车怎么样,模型准确回答了百公里加速和续航,但用户真正想问的是适不适合上下班通勤。

后来我们拆成五类指标,准确性看事实是否正确、召回完整性看关键信息是否遗漏、相关性看回答是否对准意图、可用性看能否帮用户做下一步决策、幻觉控制看有没有编造。这五个指标刚推出来时研发团队不理解,产品经理为什么管评测,不是算法的事吗。直到一次回归测试发现模型编造了一条不存在的置换补贴,如果上线涉及虚假宣传的法律风险公司承担不起,研发团队才主动要求每次 Prompt 变更必须跑完完整测试集。测试集就这样成了业务风控的一环。

测试集要贯穿全链路迭代

测试集应该贯穿模型选型、Prompt 优化、知识库建设和版本回归的每个环节。模型选型时我们对比过两个模型,A 在通用对话评测上分数更高,差点直接选 A,但用业务测试集一跑发现 A 在价格权益类问题上的幻觉率高出 B 将近一倍,最终选了 B。通用排行榜和业务表现可能是两回事。

Prompt 优化也有教训,有次我们把引导语从请基于以下知识回答改成请基于以下知识准确回答,加了准确两个字后核心用例通过率提升了,但幻觉专项测试集里有一条从通过变成了失败。模型为了准确反而不敢说任何推断性内容了。如果没跑完整测试集,这个回归问题就带着上线了。样本多了之后需要分层管理,核心集高频高价值每次必须回归、扩展集覆盖长尾场景测泛化能力、Bad Case 集防止历史问题反复、幻觉集专门卡控编造风险、上线验收集作为发布前的准入标准。

回头看从零搭建测试集的过程,就是 AI 产品经理从感觉判断到数据说话的过程。没有评测体系的时候,你说这个版本变好了,研发说那个版本也不错,争论半天谁也说不动谁。有了测试集,每次改动是好是坏跑一遍就知道,线上出 Bad Case 也能归因到具体环节。更重要的是,当产品经理用测试集和指标来定义上线标准,他在团队中的角色就从提需求的变成了定标准的。

测试集不是一次性文档,也不是技术团队的专属工具,而是 AI 产品长期运营的基础设施,更是 AI 产品经理走向工程化思维的第一步。

本文由 @Tuer AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 说白了就是你得先知道什么样的回答算好,然后弄一批标准问题反复考模型,改一次测一次,别等用户骂了再找原因。

    来自广东 回复
  2. 以前改Prompt全凭手感,改完试几条觉得不错就上线了,出了bad case也不知道是哪里改坏了。测试集就像给这个流程上了一把尺。

    来自广东 回复
  3. 模型选型时看通用排行榜差点被忽悠,幸好业务测试集拆穿了。那些嚷嚷着自家模型分数多高的,敢不敢拿真实业务场景测一下?

    来自广东 回复