AI 产品经理手记：badcase如何回流（下）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI 产品经理手记：badcase如何回流（下）

是AD

2026-05-26

0 评论 1590 浏览 6 收藏

11 分钟

模型评测后的badcase处理是一门精细活，不是所有问题都该丢给模型训练。本文将拆解badcase五大分类法则，揭示知识库错误、行为模式、风格偏好等不同问题的处理策略，并分享如何构建金标集实现可追溯的模型迭代闭环。从业务视角出发，带你看懂如何让模型真正越变越好。

评测产出的 badcase 怎么真正喂回模型？哪些该训、哪些不该训、训了反而更糟的有哪些。

上一篇写了我怎么重做单轮和多轮的评测框架——L1 致命错误一票否决、L2/L3 分层扣分、多轮 M1~M5 五个专属维度。

但评测本身不创造价值，评测的产出必须能改进模型。否则就是每周开会打一遍分，模型迭代了一版又一版，业务侧还是觉得不行——大家都很忙，但产品没有变好。

这一篇讲的就是后半段：标完一堆 badcase 之后，怎么把它真正变成下一版模型的进步。这部分是我跟大数据团队磨合最久的——不是因为他们不配合，是因为一开始大家对“什么 badcase 该训模型”的理解就不一样。

一、闭环长什么样

这张图的核心信息只有一条：badcase 不是一个桶，是五个桶，每个桶的处理方式完全不同。

二、不是所有 badcase 都该训模型

2.1 知识库问题——绝对不能训进模型

包括：事实错误、链接不可用、信息过期

我专门拿了 10 条标了”事实错误”的 case 复盘，发现 7 条是 RAG 召回错了对应文档，2 条是知识库里那条数据本身就过期了，只有 1 条算是模型”自由发挥”。

如果把这些 case 直接 SFT 进模型，等于让模型学会了一份自信但错误的知识。后果有两个

知识库后续就算改对了，模型还是会按训进去的错版本回答
模型对自己学过的内容置信度更高，反而更不愿意触发 RAG 召回

正确做法：

召回错→ 优化 embedding / 加省份过滤 / 改 chunk 切分
知识库错→ 走数据治理流程，业务侧确认后修正源数据
模型自由发挥→ 极少，但确实可以 SFT，让它学“不确定就承认不知道”

2.2 行为模式问题——该 SFT 训

包括：暴力拒答、任务未闭环、无效反问、答非所问

这些是模型”行为习惯”层面的问题——它知道知识，但不知道该怎么用。这是 SFT 的经典题材。举个最典型的例子：

原回复（被打 0 分）：

“我是 XX 的销售助手，很抱歉暂时未能找到与您的需求相关的信息。”

改写后目标回复：

“您说的这个我们没有直接对应的产品，不过类似需求可以看看 XX / 也可以转人工咨询，您要不要试试？”

收集 50~100 对这样的（原回复 / 改写后回复），做一轮针对性 SFT，效果会有明显改善。关键点：改写不是模型团队拍脑袋写，是业务侧来写。只有业务侧知道”在我们的业务体系里，这个场景的最优回复长什么样”。

2.3 风格偏好问题——该 DPO 训，不该 SFT

包括：冗余啰嗦、话术僵硬、排版混乱

直觉是”啰嗦了那就给它一个简洁版本去学”，但实际上 SFT 一个”简洁版”经常会带来模型整体表达能力的退化——它会矫枉过正地变成”惜字如金”，丢失原本好的引导性表达。

正确的做法是DPO（直接偏好优化）：给模型同时看（啰嗦版 / 精炼版），让它学的是两个版本之间的偏好关系，而不是只学其中一个。这样模型保留了表达多样性，只是在”啰嗦 vs 精炼”这个维度上向你期望的方向倾斜。

我们目前积累了大约 200 对风格偏好对，分三类：

长度偏好（啰嗦版 / 精炼版）
语气偏好（公式化版 / 自然版）
结构偏好（流水账版 / 结构化版）

2.4 一张总结表

先对着这张表分类，然后才讨论怎么改。分类对了，处理方式自然就清楚了。

三、评测集必须固定一份”金标集”

每次新版模型出来，必须跑一遍 200~500 条的金标集，对比上一版各维度分数变化。

我的金标集是这么构造的：

30%高频简单问（FAQ 类，地板线）
40%中等业务场景（套餐/流量包/终端/增值业务，主战场）
20%多轮复杂场景（指代+意图切换混合，天花板）
10%故意刁难（错别字、超长、夹杂方言、恶意绕过）

金标集要定期更新，但绝对不能频繁更新。我们的节奏是每季度补充 10% 新 case、淘汰 5% 过时 case。如果每个月都换一批，回归测试就失去比较基准了——你永远不知道是模型变好了，还是题变简单了。

四、回归测试要看分项变化，不只看总分

新版上线前，不要看”总分提升了 3 分”，要看：

4.1 L1 致命错误是不是清零了

没清零不让上。这是死线。

一个版本如果总分提升了 5 分但 L1 错误还有 3 条，业务侧应该拒绝它。因为生产环境下，1 条 L1 错误（比如说错价格、伪造链接）的破坏力远大于 100 条 L2 错误。

4.2 L2 严重项的扣分分布有没有变化

比如”任务未闭环”从 38% 降到 20%——这是真正有意义的进步。

如果分布几乎没动，只是总分升高了，那很可能是金标集里简单题答得更好了、难题没动——这种“分数提升”是虚的。

4.3 有没有出现新的扣分类型

新错误比老错误更危险。

最常见的就是：为了治”暴力拒答”，模型学会了”什么都给你推荐两款产品”，结果”答非所问”的占比上来了。这种”按下葫芦浮起瓢”必须警觉。

4.4 多轮 M1~M5 五个维度不能 backward

很多模型微调单轮变好了，多轮反而崩了——必须分开看。

我见过一次很惨烈的：模型团队为了治单轮的”答非所问”，加强了模型的”主动话题引导”能力，结果多轮的”上下文继承”分数掉了 15 个百分点。因为模型变得太”主动”了，不再老老实实地围绕用户的上一轮回答。单轮和多轮的回归报告必须分开出。

五、回流节奏：不要每周训，要按版本节奏走

频繁微调会让模型不稳定——每周一个版本，业务侧根本来不及做回归
小批量训练样本噪声大——30 条样本里如果有 5 条标注有偏差，影响会被放大
没法定位是哪批数据起的作用

现在的节奏：

这个节奏走下来，每次新版本上线，业务侧能清楚地说出来”这版相比上版，在哪些维度提升了多少、有没有新引入的问题”。而不是模型团队说”我们又训了一版，你看看”，业务侧凭感觉点头或摇头。

六、回到那个原始问题

写这两篇文章之前，我问过自己一个问题：作为业务侧，我到底想要什么？

答案是：我想要一套可以让模型迭代真正变好的机制。不是评测漂亮的报告，不是 95% 的准确率，是一套能让”用户体验”这件事可被衡量、可被改进、可被追溯的工程闭环。

这个机制的两个支柱：

上一篇：一套业务能看懂、能扣分、能 challenge 的评测框架
这一篇：一套从评测产出到模型迭代的回流路径

两个加在一起，才是完整的”业务侧主导 AI 产品质量”的工作流。少了任何一个，要么是评了不改、要么是改了不知道有没有变好。

我在做企业 AI 落地的过程记录和产品思考，会持续把这种”battle 出来的东西”写下来。下一篇大概率会写：RAG 召回评测怎么和模型评测分开做，以及为什么知识库的脏数据是 AI 客服上线的最大隐形成本。感兴趣的可以关注我。

本文由 @是AD 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自 unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

是AD

企业级Agent与知识图谱方向长期记录企业AI落地的真实观察

13篇作品 13889总阅读量

产品经理应该如何进行拆解竞品？

02-1811994 浏览

6个月，1个人让增长业务“重回正轨”

09-1110532 浏览

心理学「认知偏差」结合「用户体验」的思考（二）

04-115774 浏览

情绪板如何有效应用于「视觉风格定义」？

04-186470 浏览

交接工作有多抓马？同事跑路、连夜赶制、冲进家里要文档……

01-098398 浏览

目前还没评论，等你发挥！

中台产品经理宝典连载02：如何判断什么企业需要中台？

10-074894 浏览
618前夕，视频号悄悄杀入本地生活

06-152657 浏览
Reid Hoffman最新演讲：AI不应该是人工智能的缩写，而是增强智能；Alpha世代将是AI原住民！

09-251974 浏览