“重新生成”这个按钮,藏着你AI产品最值钱的数据
当AI产品的数据看板一片飘绿,用户却在骂街——这可能是数据体系设计出了根本性偏差。本文深度剖析传统指标为何在生成式AI产品上集体失效,提出「行为投票数据」这一新维度,并拆解从意图对齐到任务完成的完整观测框架,更附赠可直接落地的SOP工具包与Bad Case五步归因法,揭示AI产品真正的护城河不是算力而是闭环迭代能力。

最近做AI产品经理的这段时间,见过不少让人哭笑不得的场面。
其中最经典的一幕,发生在一次月度复盘会上。产品经理把数据看板投到大屏幕上,DAU曲线往右上角走,留存率42%,付费转化率比上个月涨了3个点。按理说,这是一张让人安心的成绩单。
然后老板开口了:”上周用户群里有人说,这个AI给的答案根本没用,他们是怎么用的?”
会议室安静了大概五秒钟。
产品经理翻了翻看板,点击率、跳出率、停留时长,哪一个都没有异常。但他回答不了老板的问题——不是因为他不努力,而是因为他手里的数据,从设计上就没打算回答这个问题。
这件事我后来想了很久。问题的根子不在于团队懈怠,而在于一个更底层的认知偏差:我们在用一套为”功能型产品”设计的数据体系,去管理一个”生成型产品”。 这两种产品,本质上不是一类东西。
一、你的AI产品数据全绿,但用户在骂街
传统的互联网产品,用户的行为路径是相对固定的。用户点了按钮A,跳转到页面B,完成了操作C。整个过程是确定的,数据能完整记录,指标能准确反映体验好不好。
大模型产品完全不一样。用户输入一句话,AI生成一段内容,这段内容有没有用、用户满不满意、有没有帮他解决问题——这些最关键的事情,在传统数据看板里几乎是不可见的。


我们来做一个具体的对比。用户打开一款AI辅助写作工具,输入”帮我把这段话改得更有说服力”,模型输出了一段改写版本。用户盯着屏幕看了十几秒,然后修改了Prompt重新生成,”帮我改得更简洁,别那么文绉绉的”。第二次生成后,用户复制了其中一句话,关掉了窗口。
这次交互,在传统运营数据里的记录是什么?
1次会话,停留时长47秒,未转化。
就这些。
但这次交互里真正发生了什么?第一次输出为什么不行?”文绉绉”这个反馈意味着什么?最终只复制了一句话,说明其余内容没有价值,但为什么?
这些问题,传统数据一个都回答不了。DAU告诉你用户来了多少,留存告诉你用户走了多少,但没有任何一个传统指标能告诉你:AI在这次对话里,到底有没有帮上忙。
这不是小问题。根据多个AI产品团队的实战复盘,超过60%的AI项目问题并非来自模型本身的能力缺陷,而是来自数据质量问题或指令模糊问题。也就是说,大多数团队其实是在用错误的工具找错误的原因,然后做出错误的决策。
这个产品的问题,不是数据不够多——而是他们在收集错误的数据,并且对此毫不知情。
二、重新定义”有价值的数据”:引入「行为投票数据」
三类数据,本质上是三个不同的问题
要理解为什么传统指标在AI产品上失效,先得把三类数据的边界说清楚。

三类数据回答的是三个完全不同层次的问题。运营数据是宏观的,告诉你产品整体健不健康;系统数据是工程的,告诉你服务稳不稳定;而「行为投票数据」是微观的,告诉你每一次AI交互到底有没有价值。
前两类数据,传统产品经理都很熟悉,工具也很成熟。但第三类,在大模型产品出现之前,几乎没有人系统地去收集和分析它。
什么是「行为投票数据」
用户不会直接告诉你AI的回答好不好,但他们的行为会。
每一次点击”重新生成”,是一票否决。每一次只复制输出里的一句话,是一票部分认可。每一次修改Prompt重新提交,是一张诊断单,上面写着”你没理解我的意思,我来给你纠正一下”。每一次对话进行到一半突然关掉窗口,是一张无声的弃票。
这些隐式行为,是大模型产品里信息密度最高的数据。 我把它叫做「行为投票数据」——因为用户用行动在给AI的每一次输出投票,只是大多数团队没有去统计这张选票而已。
为什么「行为投票数据」比NPS更可信
很多团队做用户满意度调研,发NPS问卷,收集”您对这次AI回答满意吗”之类的反馈。这类显式反馈有一个根本性的问题:用户说的和用户做的,经常不一样。
举一个真实发生过的情况:某产品NPS评分7.2,按照行业标准,这个分数还过得去。但同期这个产品的Prompt修改率高达51%。
这两个数字同时存在,说明什么?说明用户在”将就着用”,而不是”真的满意”。他们填问卷的时候给了个7分,但每隔一条消息就要重新改一遍Prompt,因为AI根本没理解他们想要什么。
NPS是事后回忆,行为投票是实时现场。前者是用户的主观感受,后者是用户的真实选择。在判断AI产品质量这件事上,后者要可信得多。
还有一个容易被忽略的”伪指标”需要单独说一下:停留时长在AI产品里是一个危险的数字。
用户在屏幕前盯着一段没用的AI输出发呆,也会贡献停留时长。用户在仔细阅读一段高质量回答,也是停留时长。这两种状态,传统数据完全分辨不了,但用户体验天壤之别。如果你的团队还在用停留时长来评估AI回答质量,这个指标可以考虑从AI质量评估体系里移除了。
三、「行为投票数据」的指标体系——以及为什么是这些而不是别的
很多团队搭建观测指标时,最常见的错误是”把能收集到的数据都收集了”,然后建一个没人看的大屏。三个月后,这个大屏成了摆设,问题该发现不了还是发现不了。
指标不是越多越好。关键在于它们能不能回答一个具体的问题。
从用户目标出发,反推指标体系
用户使用AI产品,本质上只有一个目标:用最少的交互成本,完成自己的任务。 围绕这个目标,可以从三个维度来衡量AI产品做得好不好:

意图对齐维度,回答的是”AI理解用户了吗”。核心指标是Prompt修改率和多轮追问率。如果用户频繁修改Prompt,说明AI没理解用户的意思,用户在反复纠正;如果多轮追问率高,说明用户一次没说清楚,但也可能是AI没有主动引导用户把需求说完整。
输出质量维度,回答的是”AI的回答有用吗”。核心指标是重试率、内容采纳率(用户复制/引用/导出了多少内容)和幻觉触发率。这个维度是用户体感最直接的反映——AI说的东西,用户有没有真的用上。
任务完成维度,回答的是”用户最终达成目标了吗”。核心指标是一次完成率、中途放弃率和会话深度。这个维度是前两个维度问题累积之后的最终结果,问题出在这里,往往意味着意图对齐和输出质量都出了问题。
资源有限时,优先级的推导逻辑
这三个维度里,有一个清晰的传导链条:

问题从上游往下游传导。这意味着,最早暴露问题、信号最灵敏的指标,一定在意图对齐层。
这就是为什么,如果你的团队刚开始搭建观测体系,资源有限,只需要盯住两个数字:Prompt修改率和重试率。
Prompt修改率高,说明AI没理解用户——这是意图层的问题,通常对应系统Prompt设计问题或者引导UI设计问题。重试率高,说明AI的输出没用——这是质量层的问题,可能是模型问题,也可能是知识库问题,需要进一步归因。
这两个数字一旦同时异常,基本可以确定产品有问题,再往下追才有意义。如果只有其中一个异常,可以先针对性地排查对应层级。
四、Bad Case分析:从”感觉不好”到找到根因
方法论讲完了,来看真实案例。以及,这套方法论在什么情况下会给出错误答案。
标准流程:五步归因法
某AI知识问答产品,上线两个月后,产品经理在例行观测中发现了一个异常:”政策解读”类问题的重试率高达38%,而其他类型问题的均值只有12%。
产品经理的第一反应是——要不要换个更强的模型?
这个判断差点让团队走了一条代价极高的弯路。
Bad Case分析的第一步,是抵制住”换模型”的冲动,先把证据链还原清楚。

抽取50条重试样本,逐条回答五个问题:
第一,用户真实目标是什么? 还原意图,不要看Prompt的字面意思,要看用户背后想解决什么问题。
第二,输入信息是否足够? 判断Prompt质量——用户有没有提供足够的上下文,还是Prompt本身就是模糊的。
第三,模型输出错在哪里? 诊断输出——是事实错误、格式不对、逻辑混乱,还是和用户意图完全不搭?
第四,用户如何反应? 解读行为投票——用户是重试、修改Prompt、追问,还是直接关掉?不同的行为对应不同的问题类型。
第五,问题出在哪个环节? 四象限归因:Prompt层 / 模型层 / RAG召回层 / 工具调用层。
这个案例的分析结果出乎意料:用户输入的都是具体政策名称,意图明确,输入没有问题。模型的推理逻辑也没有明显错误。但输出内容里,大量引用来自两年前的旧版政策文件——知识库中的政策文档更新严重滞后,且切片策略没有按”政策版本”进行标注和过滤,导致模型召回了错误版本的内容。
归因结论:问题不在模型,在RAG召回链路。
迭代动作随即清晰:重做知识库切片策略,增加”文件发布日期”字段,优先召回最新版本文档;同时将这批Bad Case标注后补充进评测集,用于下一个版本的回归检测。
两周后,政策解读类问题重试率从38%降至11%,基本回归正常水平。全程没有换模型,没有增加算力,只改了数据链路。
这个案例说明一件事:Bad Case不是问题的终点,而是迭代的起点。最怕的不是有Bad Case,而是把所有问题都归结为”模型不行”然后等下一个版本——这是AI产品团队最常见、代价最高的认知陷阱。
方法论的失效边界:三种情况下Bad Case分析会给出错误答案
这是大多数方法论文章不会写的部分,但恰恰是最值钱的内容。
失效情形一:样本偏差陷阱。
你抽取的50条Bad Case,都来自”点击了重试”的用户。但有一类用户不会重试——他们直接关掉窗口走了。这批沉默的流失用户,才是你最应该研究的群体,但他们在Bad Case样本里几乎不存在。
如果你只分析重试样本,你看到的是”用户觉得不够好但还愿意继续用”的问题。但那些直接走掉的用户,他们遇到的问题可能更严重,而你永远看不到。
解决方案是把”会话中途放弃”单独建立一个分析队列,与Bad Case并行分析,绝不能合并。这两个队列回答的是两个不同的问题:一个是”如何让将就的用户变成满意的用户”,另一个是”如何把已经流失的用户拉回来”。
失效情形二:归因层级错位。
有时候,问题的表象在RAG召回层(召回了错误文档),但根因在产品设计层(知识库的文档分类标准本身就是错的,导致切片时没有按版本标注)。
如果归因只停在技术层,迭代动作就会永远是”优化召回算法”,而不是”重新设计知识库的组织结构”。前者是治标,后者是治本,代价相差极大。
判断归因是否到位,有一个简单的自检标准:如果你的迭代动作只涉及算法参数调整,而没有涉及任何产品设计或数据结构的改变,那么你的归因很可能停在了表层。
失效情形三:小样本统计噪声。
当某类问题的Bad Case样本低于30条时,任何比例数据都不可信。
很多团队在样本量极小的情况下得出”这类问题占比70%”的结论,然后据此调整模型——这是在用噪声做决策。30条样本里有21条是某类问题,这个70%的比例可能只是随机波动,换一批30条样本可能就变成40%了。
建议设置最低样本量门槛,50条是一个比较合理的起点。低于这个数量时,只做定性描述,不做定量归因,不基于这批数据做任何模型层面的调整。
五、闭环才是护城河:可直接复用的SOP工具包
一套观测体系真正的价值,不在于它能发现多少问题,而在于它能把”发现—归因—迭代—验证”这个闭环跑多快、跑多稳。

其中最容易被跳过的是最后一步——验证。很多团队发完版本只看DAU有没有涨,从不回头确认当初那个Bad Case有没有被解决。没有验证的迭代,是无法积累的迭代,每次都像从零开始。
Bad Case归因决策树

这张决策树可以直接打印出来贴在工位上。每次拿到一个Bad Case,从上往下走一遍,基本能定位到问题层级。
不同归因结论对应的迭代动作
找到问题层级之后,迭代动作是对应的,不能乱打:

有一个反直觉的结论值得单独说:换模型,是四个选项里代价最高、应该最后考虑的那个。 但在实际工作中,它往往是第一个被提出来的。原因很简单,换模型是技术团队最熟悉的操作,而重新设计知识库切片策略或者优化系统Prompt,需要产品经理深度介入,没人愿意做这个活儿。
这是一个组织惰性问题,不是技术问题。
每周观测例行检查清单
下面这张清单可以直接复制到团队周会的议程里:
- 本周重试率 vs 上周:是否上升超过5%?
- 本周Prompt修改率 vs 上周:是否上升超过8%?
- 本周会话中途放弃率:是否有特定场景或时段的异常峰值?
- 上周修复的Top3 Bad Case:是否已加入评测集并通过回归检测?
- 本周新增Bad Case中,归因为RAG层的占比是否超过40%?(若超过,知识库需要专项审查)
这五个问题,每周花15分钟过一遍,能帮你在问题扩大之前就发现苗头。
“产品记忆”的真正含义
最后说一个很多团队忽略的事:把修复后的Bad Case强制加入评测集,作为每次发版的回归检测项。
这件事听起来像是质量保障的工作,但它的意义远不止于此。它在做的事情,是给产品建立一套”记忆”——每一次踩过的坑,都变成了下一次迭代的护栏。
没有这套记忆的产品,每次迭代都是从零开始的。你修复了一个问题,三个版本之后它可能又回来了,因为没有任何机制阻止它。团队的努力在这个过程里慢慢消耗掉,却没有积累成任何东西。
模型可以调用API,知识库可以外采,但这套”发现—归因—迭代—验证”的能力,是买不来的。它需要产品经理统一问题定义、推动归因共识、协调算法工程运营共同行动,并在每一个版本周期里持续执行。
这套能力,才是AI产品真正的护城河。
六、结语:三个问题,现在就可以问自己
下周一,做一件事:打开你们的产品后台,找到”重新生成”这个按钮被点击的总次数。然后问自己三个问题:
第一,我知道这个数字吗?
第二,我知道这个数字背后,用户在抱怨什么吗?
第三,我知道上一次这个数字下降,是因为我们做了什么改变吗?
如果这三个问题里有任何一个答案是”不知道”——你现在最重要的事,不是优化任何功能,而是先把这套观测体系建起来。
大模型时代,最贵的不是算力,不是模型,是你对用户与AI之间每一次真实交互的理解能力。这种理解,只能从数据里长出来。
本文由 @苏苏的AI笔记 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益



