“重新生成”这个按钮，藏着你AI产品最值钱的数据

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

“重新生成”这个按钮，藏着你AI产品最值钱的数据

苏苏的AI笔记

2026-03-20

0 评论 1900 浏览 8 收藏

23 分钟

当AI产品的数据看板一片飘绿，用户却在骂街——这可能是数据体系设计出了根本性偏差。本文深度剖析传统指标为何在生成式AI产品上集体失效，提出「行为投票数据」这一新维度，并拆解从意图对齐到任务完成的完整观测框架，更附赠可直接落地的SOP工具包与Bad Case五步归因法，揭示AI产品真正的护城河不是算力而是闭环迭代能力。

最近做AI产品经理的这段时间，见过不少让人哭笑不得的场面。

其中最经典的一幕，发生在一次月度复盘会上。产品经理把数据看板投到大屏幕上，DAU曲线往右上角走，留存率42%，付费转化率比上个月涨了3个点。按理说，这是一张让人安心的成绩单。

然后老板开口了：”上周用户群里有人说，这个AI给的答案根本没用，他们是怎么用的？”

会议室安静了大概五秒钟。

产品经理翻了翻看板，点击率、跳出率、停留时长，哪一个都没有异常。但他回答不了老板的问题——不是因为他不努力，而是因为他手里的数据，从设计上就没打算回答这个问题。

这件事我后来想了很久。问题的根子不在于团队懈怠，而在于一个更底层的认知偏差：我们在用一套为”功能型产品”设计的数据体系，去管理一个”生成型产品”。 这两种产品，本质上不是一类东西。

一、你的AI产品数据全绿，但用户在骂街

传统的互联网产品，用户的行为路径是相对固定的。用户点了按钮A，跳转到页面B，完成了操作C。整个过程是确定的，数据能完整记录，指标能准确反映体验好不好。

大模型产品完全不一样。用户输入一句话，AI生成一段内容，这段内容有没有用、用户满不满意、有没有帮他解决问题——这些最关键的事情，在传统数据看板里几乎是不可见的。

我们来做一个具体的对比。用户打开一款AI辅助写作工具，输入”帮我把这段话改得更有说服力”，模型输出了一段改写版本。用户盯着屏幕看了十几秒，然后修改了Prompt重新生成，”帮我改得更简洁，别那么文绉绉的”。第二次生成后，用户复制了其中一句话，关掉了窗口。

这次交互，在传统运营数据里的记录是什么？

1次会话，停留时长47秒，未转化。

就这些。

但这次交互里真正发生了什么？第一次输出为什么不行？”文绉绉”这个反馈意味着什么？最终只复制了一句话，说明其余内容没有价值，但为什么？

这些问题，传统数据一个都回答不了。DAU告诉你用户来了多少，留存告诉你用户走了多少，但没有任何一个传统指标能告诉你：AI在这次对话里，到底有没有帮上忙。

这不是小问题。根据多个AI产品团队的实战复盘，超过60%的AI项目问题并非来自模型本身的能力缺陷，而是来自数据质量问题或指令模糊问题。也就是说，大多数团队其实是在用错误的工具找错误的原因，然后做出错误的决策。

这个产品的问题，不是数据不够多——而是他们在收集错误的数据，并且对此毫不知情。

二、重新定义”有价值的数据”：引入「行为投票数据」

三类数据，本质上是三个不同的问题

要理解为什么传统指标在AI产品上失效，先得把三类数据的边界说清楚。

三类数据回答的是三个完全不同层次的问题。运营数据是宏观的，告诉你产品整体健不健康；系统数据是工程的，告诉你服务稳不稳定；而「行为投票数据」是微观的，告诉你每一次AI交互到底有没有价值。

前两类数据，传统产品经理都很熟悉，工具也很成熟。但第三类，在大模型产品出现之前，几乎没有人系统地去收集和分析它。

什么是「行为投票数据」

用户不会直接告诉你AI的回答好不好，但他们的行为会。

每一次点击”重新生成”，是一票否决。每一次只复制输出里的一句话，是一票部分认可。每一次修改Prompt重新提交，是一张诊断单，上面写着”你没理解我的意思，我来给你纠正一下”。每一次对话进行到一半突然关掉窗口，是一张无声的弃票。

这些隐式行为，是大模型产品里信息密度最高的数据。 我把它叫做「行为投票数据」——因为用户用行动在给AI的每一次输出投票，只是大多数团队没有去统计这张选票而已。

为什么「行为投票数据」比NPS更可信

很多团队做用户满意度调研，发NPS问卷，收集”您对这次AI回答满意吗”之类的反馈。这类显式反馈有一个根本性的问题：用户说的和用户做的，经常不一样。

举一个真实发生过的情况：某产品NPS评分7.2，按照行业标准，这个分数还过得去。但同期这个产品的Prompt修改率高达51%。

这两个数字同时存在，说明什么？说明用户在”将就着用”，而不是”真的满意”。他们填问卷的时候给了个7分，但每隔一条消息就要重新改一遍Prompt，因为AI根本没理解他们想要什么。

NPS是事后回忆，行为投票是实时现场。前者是用户的主观感受，后者是用户的真实选择。在判断AI产品质量这件事上，后者要可信得多。

还有一个容易被忽略的”伪指标”需要单独说一下：停留时长在AI产品里是一个危险的数字。

用户在屏幕前盯着一段没用的AI输出发呆，也会贡献停留时长。用户在仔细阅读一段高质量回答，也是停留时长。这两种状态，传统数据完全分辨不了，但用户体验天壤之别。如果你的团队还在用停留时长来评估AI回答质量，这个指标可以考虑从AI质量评估体系里移除了。

三、「行为投票数据」的指标体系——以及为什么是这些而不是别的

很多团队搭建观测指标时，最常见的错误是”把能收集到的数据都收集了”，然后建一个没人看的大屏。三个月后，这个大屏成了摆设，问题该发现不了还是发现不了。

指标不是越多越好。关键在于它们能不能回答一个具体的问题。

从用户目标出发，反推指标体系

用户使用AI产品，本质上只有一个目标：用最少的交互成本，完成自己的任务。 围绕这个目标，可以从三个维度来衡量AI产品做得好不好：

意图对齐维度，回答的是”AI理解用户了吗”。核心指标是Prompt修改率和多轮追问率。如果用户频繁修改Prompt，说明AI没理解用户的意思，用户在反复纠正；如果多轮追问率高，说明用户一次没说清楚，但也可能是AI没有主动引导用户把需求说完整。

输出质量维度，回答的是”AI的回答有用吗”。核心指标是重试率、内容采纳率（用户复制/引用/导出了多少内容）和幻觉触发率。这个维度是用户体感最直接的反映——AI说的东西，用户有没有真的用上。

任务完成维度，回答的是”用户最终达成目标了吗”。核心指标是一次完成率、中途放弃率和会话深度。这个维度是前两个维度问题累积之后的最终结果，问题出在这里，往往意味着意图对齐和输出质量都出了问题。

资源有限时，优先级的推导逻辑

这三个维度里，有一个清晰的传导链条：

问题从上游往下游传导。这意味着，最早暴露问题、信号最灵敏的指标，一定在意图对齐层。

这就是为什么，如果你的团队刚开始搭建观测体系，资源有限，只需要盯住两个数字：Prompt修改率和重试率。

Prompt修改率高，说明AI没理解用户——这是意图层的问题，通常对应系统Prompt设计问题或者引导UI设计问题。重试率高，说明AI的输出没用——这是质量层的问题，可能是模型问题，也可能是知识库问题，需要进一步归因。

这两个数字一旦同时异常，基本可以确定产品有问题，再往下追才有意义。如果只有其中一个异常，可以先针对性地排查对应层级。

四、Bad Case分析：从”感觉不好”到找到根因

方法论讲完了，来看真实案例。以及，这套方法论在什么情况下会给出错误答案。

标准流程：五步归因法

某AI知识问答产品，上线两个月后，产品经理在例行观测中发现了一个异常：”政策解读”类问题的重试率高达38%，而其他类型问题的均值只有12%。

产品经理的第一反应是——要不要换个更强的模型？

这个判断差点让团队走了一条代价极高的弯路。

Bad Case分析的第一步，是抵制住”换模型”的冲动，先把证据链还原清楚。

抽取50条重试样本，逐条回答五个问题：

第一，用户真实目标是什么？ 还原意图，不要看Prompt的字面意思，要看用户背后想解决什么问题。

第二，输入信息是否足够？ 判断Prompt质量——用户有没有提供足够的上下文，还是Prompt本身就是模糊的。

第三，模型输出错在哪里？ 诊断输出——是事实错误、格式不对、逻辑混乱，还是和用户意图完全不搭？

第四，用户如何反应？ 解读行为投票——用户是重试、修改Prompt、追问，还是直接关掉？不同的行为对应不同的问题类型。

第五，问题出在哪个环节？ 四象限归因：Prompt层 / 模型层 / RAG召回层 / 工具调用层。

这个案例的分析结果出乎意料：用户输入的都是具体政策名称，意图明确，输入没有问题。模型的推理逻辑也没有明显错误。但输出内容里，大量引用来自两年前的旧版政策文件——知识库中的政策文档更新严重滞后，且切片策略没有按”政策版本”进行标注和过滤，导致模型召回了错误版本的内容。

归因结论：问题不在模型，在RAG召回链路。

迭代动作随即清晰：重做知识库切片策略，增加”文件发布日期”字段，优先召回最新版本文档；同时将这批Bad Case标注后补充进评测集，用于下一个版本的回归检测。

两周后，政策解读类问题重试率从38%降至11%，基本回归正常水平。全程没有换模型，没有增加算力，只改了数据链路。

这个案例说明一件事：Bad Case不是问题的终点，而是迭代的起点。最怕的不是有Bad Case，而是把所有问题都归结为”模型不行”然后等下一个版本——这是AI产品团队最常见、代价最高的认知陷阱。

方法论的失效边界：三种情况下Bad Case分析会给出错误答案

这是大多数方法论文章不会写的部分，但恰恰是最值钱的内容。

失效情形一：样本偏差陷阱。

你抽取的50条Bad Case，都来自”点击了重试”的用户。但有一类用户不会重试——他们直接关掉窗口走了。这批沉默的流失用户，才是你最应该研究的群体，但他们在Bad Case样本里几乎不存在。

如果你只分析重试样本，你看到的是”用户觉得不够好但还愿意继续用”的问题。但那些直接走掉的用户，他们遇到的问题可能更严重，而你永远看不到。

解决方案是把”会话中途放弃”单独建立一个分析队列，与Bad Case并行分析，绝不能合并。这两个队列回答的是两个不同的问题：一个是”如何让将就的用户变成满意的用户”，另一个是”如何把已经流失的用户拉回来”。

失效情形二：归因层级错位。

有时候，问题的表象在RAG召回层（召回了错误文档），但根因在产品设计层（知识库的文档分类标准本身就是错的，导致切片时没有按版本标注）。

如果归因只停在技术层，迭代动作就会永远是”优化召回算法”，而不是”重新设计知识库的组织结构”。前者是治标，后者是治本，代价相差极大。

判断归因是否到位，有一个简单的自检标准：如果你的迭代动作只涉及算法参数调整，而没有涉及任何产品设计或数据结构的改变，那么你的归因很可能停在了表层。

失效情形三：小样本统计噪声。

当某类问题的Bad Case样本低于30条时，任何比例数据都不可信。

很多团队在样本量极小的情况下得出”这类问题占比70%”的结论，然后据此调整模型——这是在用噪声做决策。30条样本里有21条是某类问题，这个70%的比例可能只是随机波动，换一批30条样本可能就变成40%了。

建议设置最低样本量门槛，50条是一个比较合理的起点。低于这个数量时，只做定性描述，不做定量归因，不基于这批数据做任何模型层面的调整。

五、闭环才是护城河：可直接复用的SOP工具包

一套观测体系真正的价值，不在于它能发现多少问题，而在于它能把”发现—归因—迭代—验证”这个闭环跑多快、跑多稳。

其中最容易被跳过的是最后一步——验证。很多团队发完版本只看DAU有没有涨，从不回头确认当初那个Bad Case有没有被解决。没有验证的迭代，是无法积累的迭代，每次都像从零开始。

Bad Case归因决策树

这张决策树可以直接打印出来贴在工位上。每次拿到一个Bad Case，从上往下走一遍，基本能定位到问题层级。

不同归因结论对应的迭代动作

找到问题层级之后，迭代动作是对应的，不能乱打：

有一个反直觉的结论值得单独说：换模型，是四个选项里代价最高、应该最后考虑的那个。 但在实际工作中，它往往是第一个被提出来的。原因很简单，换模型是技术团队最熟悉的操作，而重新设计知识库切片策略或者优化系统Prompt，需要产品经理深度介入，没人愿意做这个活儿。

这是一个组织惰性问题，不是技术问题。

每周观测例行检查清单

下面这张清单可以直接复制到团队周会的议程里：

本周重试率 vs 上周：是否上升超过5%？
本周Prompt修改率 vs 上周：是否上升超过8%？
本周会话中途放弃率：是否有特定场景或时段的异常峰值？
上周修复的Top3 Bad Case：是否已加入评测集并通过回归检测？
本周新增Bad Case中，归因为RAG层的占比是否超过40%？（若超过，知识库需要专项审查）

这五个问题，每周花15分钟过一遍，能帮你在问题扩大之前就发现苗头。

“产品记忆”的真正含义

最后说一个很多团队忽略的事：把修复后的Bad Case强制加入评测集，作为每次发版的回归检测项。

这件事听起来像是质量保障的工作，但它的意义远不止于此。它在做的事情，是给产品建立一套”记忆”——每一次踩过的坑，都变成了下一次迭代的护栏。

没有这套记忆的产品，每次迭代都是从零开始的。你修复了一个问题，三个版本之后它可能又回来了，因为没有任何机制阻止它。团队的努力在这个过程里慢慢消耗掉，却没有积累成任何东西。

模型可以调用API，知识库可以外采，但这套”发现—归因—迭代—验证”的能力，是买不来的。它需要产品经理统一问题定义、推动归因共识、协调算法工程运营共同行动，并在每一个版本周期里持续执行。

这套能力，才是AI产品真正的护城河。

六、结语：三个问题，现在就可以问自己

下周一，做一件事：打开你们的产品后台，找到”重新生成”这个按钮被点击的总次数。然后问自己三个问题：

第一，我知道这个数字吗？

第二，我知道这个数字背后，用户在抱怨什么吗？

第三，我知道上一次这个数字下降，是因为我们做了什么改变吗？

如果这三个问题里有任何一个答案是”不知道”——你现在最重要的事，不是优化任何功能，而是先把这套观测体系建起来。

大模型时代，最贵的不是算力，不是模型，是你对用户与AI之间每一次真实交互的理解能力。这种理解，只能从数据里长出来。

本文由 @苏苏的AI笔记原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

苏苏的AI笔记

分享AI产品经理和日常感悟

9篇作品 14190总阅读量

“买了个寂寞”的店铺，有近万人在这里寻开心

07-122987 浏览

5个品牌案例，帮你快速搞懂「商业模式画布」！

07-0730291 浏览

数字经济下，4.6亿车主真正需要的“停车APP”即将出现

05-0212479 浏览

中国电商行业趋势观察与展望

10-273488 浏览

LOGO设计的思考：从保罗·兰德、「符号」、「视觉锤」到「标识已死」

04-066597 浏览

目前还没评论，等你发挥！