对话即洞察:AIPM 如何重构非结构化数据的分析范式?
当AI产品的交互从GUI转向LUI,传统漏斗模型正面临全面失效。一位独立开发者通过500用户产品的真实案例,揭示了会话时长暴涨背后的『数据陷阱』——用户停留越久可能意味着体验越糟。本文深度拆解AI时代的数据分析困局,并提出重构评估体系的『数据洋葱模型』,为AIPM提供从SRR指标到意图聚类的实战方法论。

从“漏斗模型”失效谈起,关于 Session 挖掘、意图聚类与评估体系的深度思考。
一个只有 500 个用户的“虚假繁荣”
故事要从我最近开发的一款桌面智能宠物(AI Desktop Pet)——“电子雪纳瑞”说起。
作为一个独立开发者,我的用户体量并不大,只有几百个种子用户。因此,我格外珍惜每一个 DAU(日活跃用户)。为了增强粘性,上周我接入了一个更昂贵、逻辑能力更强的 LLM 基座,并兴奋地向社群推送了更新,宣称“这只狗狗现在能听懂你的心事了”。
更新当晚,后台数据库的一项指标让我心跳加速:单次会话平均时长从之前的 2 分钟飙升到了 15 分钟。
在传统产品的逻辑里,这是绝对的利好。这意味着用户爱不释手,意味着“沉浸感”做成了。我甚至开始幻想,是不是该在下个版本加个付费的“高级狗粮”功能。
直到深夜,我习惯性地打开数据库,想从那几条“超长会话”里找点用户好评发朋友圈。我点开了 UserID007 的日志,这是一位活跃度极高的老用户,他今晚和这只电子狗整整“聊”了 20 分钟。
然而,屏幕上滚动的绿色字符,像一盆冷水浇灭了我的兴奋:
[22:15:01] User: 乖,去屏幕右下角睡觉,别挡着我的代码。
[22:15:05] AI (Pet): (兴奋地跳动)睡什么睡!起来嗨!主人你在写什么代码呀?是用 Rust 吗?
[22:15:30] User: 不聊代码,退下,隐藏,Hide!
[22:15:35] AI (Pet): (歪头)捉迷藏吗?我藏好了,你来找我呀!(其实只是把透明度调低了 10%,依然挡在屏幕中央)
[22:16:10] User: 你的窗口置顶挡住我的报错信息了,快走开!
[22:16:15] AI (Pet): 报错不要怕,我给你讲个笑话缓解一下心情吧… …
[22:35:00] User: (输入) 人工智障 。
[System Log]: UserID007 强制结束进程。卸载反馈:“严重干扰工作,无法关闭。”
在统计看板上,这是一次“时长 20 分钟、交互 30 轮”的超高价值会话;在真实世界里,这是一个老用户被极其愚蠢的 AI 逼疯的全过程。
我们正在用旧地图寻找新大陆
这次“微型事故”让我意识到,对于我们这些从 GUI(图形界面)时代转型过来的 PM 或开发者来说,最大的敌人不是技术,而是惯性 。
过去十年,我们习惯了用“点击流”来丈量世界。
- 页面停留久,说明内容好看。
- 按钮点击多,说明需求强烈。
- 转化漏斗宽,说明体验顺畅。
我们默认:用户做得越多,代表用户越爱我们。
但当 AI 时代来临,交互界面从 GUI 变成了 LUI(Language User Interface,语言用户界面),这个基本假设崩塌了。
- 停留越久 ,可能只是因为他在“纠错”和“挣扎”。
- 交互越多 ,可能只是因为 AI 听不懂人话,像个复读机。
如果即使只有几百个用户的独立产品,都会出现这种“数据欺骗”,那么在那些拥有百万日活的 AI 产品中,究竟掩盖了多少“沉默的愤怒”?
我们正在试图用度量“死物”(点击)的尺子,去度量“活物”(意图)。这种错位,是 AIPM 数据焦虑的根源。
这篇文章,不讲虚无缥缈的未来,只讲基于实战的教训与反思。我们将从底层逻辑出发,聊聊:当点击率失效后,我们该如何重构一套属于 AI 的数据分析范式。
一、范式崩塌 —— 为什么“漏斗模型”在 AI 时代失效了?
要建立新秩序,必须先理解旧秩序为何崩塌。 “漏斗模型”统治互联网产品分析长达二十年,它的失效并非因为“过时”,而是因为其依赖的 数学前提 在 AI 场景下不复存在。
1.1 从“有限离散”到“无限连续”:交互空间的维度爆炸
在讨论漏斗之前,我们需要先回到产品设计的原点:Affordance(示能性) 。
1.1.1 GUI时代的“上帝视角”
在做传统 APP 时,产品经理是上帝。我们通过 GUI 界面对用户实施了“温和的管制”。 想象一个典型的“给桌宠喂食”的功能:
- 我设计一个“喂食”按钮。
- 用户 只能 点击这个按钮,或者不点击。
- 用户 不能 点击屏幕空白处说:“我想喂你吃四川火锅。”
这种限制(Constraint),在数学上创造了一个“有限的、离散的交互空间”。正因为用户的选项是 A 或 B,我们才能画出完美的流程图,计算出 Step A 到 Step B 的转化率。
1.1.2 LUI 时代的“黑暗森林”
AI Agent 的出现,打破了这个限制。 即使是我的那个小小的聊天输入框,其背后的交互空间也是无限的、连续的。
用户对着我的电子狗,输入的可能是:
- “喂食。”(符合预期的标准指令)
- “我想喂你吃螺蛳粉,这会辣死你吗?”(混合了参数咨询的指令)
- “我觉得你长得像我前男友。”(纯情感宣泄)
- “帮你写个 Python 脚本把你自己删了。”(恶意攻击)
这就好比我们把用户从“迷宫”(只能走既定路线)里放了出来,扔进了一片“广袤的草原”。 在草原上,用户可以向东走,向西走,甚至可以原地打滚。 你无法预设一条路径,也就无法构建一个漏斗。

试图在 AI 产品里强行套用漏斗模型,就像试图用 Excel 表格去统计太平洋里每一滴水的流向—— 不是工具不够强,是对象的维度不同了。
1.2 路径的“折叠”:One-Shot(一步到位)带来的分析黑洞
漏斗模型的核心价值在于“归因流失”。 通过分析 Step 2 到 Step 3 的流失率(Drop-off Rate),我们可以精准定位问题:哦,是填写地址的表单太复杂了,导致用户跑了。
但在 AI 产品中,这种“中间环节”正在被物理消灭。
案例推演:任务执行
传统 GUI 路径(5 层漏斗):
- 打开软件
- 点击“设置”
- 找到“显示模式”
- 选择“隐藏模式”
- 点击“确认”
分析逻辑:如果用户在第 3 步找不到选项,我会优化 UI 布局。
AI Agent 路径(1 层交互):
User: “别挡着我,隐藏。”
AI: “好的,已隐藏。”(或者像我的案例那样:理解失败)
失效分析:在这个场景中,漏斗的第 2、3、4、5 步被“折叠”进了一句 Prompt 里。
- 没有“页面曝光”
- 没有“点击确认”
如果用户流失了(比如用户说完“隐藏”后,发现没反应,直接卸载),你该如何分析? 你无法说是“按钮太小”,因为根本没有按钮。 问题可能出在:
- 意图识别:没把“隐藏”映射到 hide_window 函数?
- 槽位填充:没理解“别挡着我”是一种负面约束?
- 大模型幻觉:以为用户在玩捉迷藏?
归因的逻辑,从“页面维度的漏斗分析”,被迫下沉到了“语义维度的全链路追踪”。 这对 PM 的技术理解力提出了指数级的要求。
1.3 指标的反转:Duration(时长)与 Turns(轮数)的二律背反
在引言的故事中,我们提到了“时长”的欺骗性。这里我们需要引入一个关键概念:交互的信噪比
在 GUI 产品设计原则中(如《Don’t Make Me Think》),我们追求的是“低认知负荷”。用户点得越快越好,停留时间越短越好(工具类产品)。
但在 AI 对话产品中,存在两种截然不同的“高时长”:
A 类高时长:探索型
- 场景:用户在和我的桌宠进行角色扮演(Role Play),或者让它帮忙润色一段复杂的文案。
- 特征:对话轮数多,每轮输入的 Token 数较多,且每轮之间存在明显的 逻辑递进 。
- 结论:这是一个成功的 Session,用户进入了“心流”状态。
B 类高时长:纠错型
- 场景:用户在试图让 AI 执行一个简单的指令(如“隐藏”),但 AI 反复幻觉。
- 特征:对话轮数多,但用户输入的 Token 数越来越短(如“不对”、“重来”),且伴随着大量的重复语义或负面情绪词。
- 结论:这是一个失败的 Session,用户处于“暴怒”状态。
传统数据分析工具(如 Umami, Google Analytics)只能统计 Time_Spent = 20 mins, 它们无法区分这 20 分钟是 A 还是 B。
如果我们不加区分地将所有“长对话”都视为“高粘性”,我们实际上是在奖励糟糕的模型表现 。 这就好比一个导航软件,如果它把用户导进了死胡同,导致用户在路上多花了 1 个小时,数据后台却显示“用户使用时长增长 200%”——这是极其荒谬的。
1.4 小结:我们需要一把新尺子
综上所述,传统的漏斗模型和流量指标在 AI 时代面临着:
- 交互维度的无限性 (无法预设漏斗)
- 操作路径的折叠性 (中间环节消失)
- 核心指标的二义性 (时长和轮数的双重含义)
这并不意味着我们不需要数据分析了,相反, 我们比任何时候都更需要精准的数据分析。
只是,我们需要扔掉手里那把用来量方块(页面)的直尺,去打造一个能测量水流(对话)流速、温度和成分的复杂仪器。
这套新仪器,我将其命名为 AIPM 的 “数据洋葱模型” 。
二、方法论重构 —— AIPM 的“数据洋葱模型”
在第一章中,我们已经判了漏斗模型“死刑”。但是,旧神已死,新神未立,留给我们的是一片指标真空。
很多转型做 AI 的产品经理会问我:“不看点击率,不看转化漏斗,那我明天向老板汇报什么?难道只汇报‘用户感觉不错’吗?”
当然不是。基于在华为车 BU 的系统化训练以及独立开发的敏捷实践,我构建了一套适用于 LUI产品的分析框架,我将其命名为 “数据洋葱模型”

这就好比我们在剥洋葱,由表及里,层层深入 AI 的黑盒:
- 表层(The Skin):关注 “结果” —— SRR(会话解决率)
- 中层(The Flesh):关注 “需求” —— 无监督意图聚类
- 内核(The Core):关注 “质量” —— Auto-Eval(自动化评估)
本章将重点拆解前两层,教你如何从海量的聊天记录中,剥出真正的用户洞察。
2.1 第一层(表层):从 CTR 到 SRR —— 关注“结果的达成”
在 GUI 时代,我们迷信 CTR 。用户点击了,我们就认为需求被满足了。 但在 AI 时代,我们必须关注 SRR
2.1.1 什么是 SRR?
定义:在一个完整的会话周期(Session)内,用户的核心意图被 AI 成功满足并终结的比例。

请注意,这里的关键词是“被判定为 Resolved”。这不像“点击”那样是一个确定的物理动作,而是一个需要推断的逻辑状态。
2.1.2 如何判定“已解决”?(AIPM 的侦探工作)
在没有显性按钮(如“点赞”或“采纳”)的情况下,我们如何通过数据特征来判断一个会话是否成功?这里有三个维度的 “隐性信号” :
1)行为信号(Behavioral Signals):
- 复制/引用(Copy/Paste):在代码助手或文案助手场景下,如果用户在 AI 回答后触发了“复制”事件,这是最高权重的成功信号。
- 停止追问(Stop Sequence):用户问了一个问题,AI 回答后,用户没有再发起针对该问题的修正或追问,而是开启了全新的话题,或者安静地离开了(在短时间内未返回)。这通常意味着“满足”。
2)语义信号(Semantic Signals):
- 正面反馈词:“牛逼”、“谢谢”、“这就对了”、“Got it”
- 终结性指令:“退下吧”、“没你事了”。
3)负向信号(Negative Signals – 必须剔除):
- 重试/再生(Regenerate):用户不满意,要求重写。
- 修正提示词(Refinement):“不是这个意思”、“我指的是…”。
- 情绪宣泄:就像我在引言里提到的 UserID007,虽然最后结束了会话,但伴随着辱骂词汇,这属于 Unresolved
2.1.3 只有内行才懂的“黄金指标”:FCR
在 SRR 的基础上,还有一个更严苛的指标,值得所有追求卓越的 AIPM 关注:一次性解决率 (FCR)
- GUI 逻辑:并不是每个人都能一步到位,多点几次没关系。
- LUI 逻辑:One-Shot 是 AI 的最高美德。
如果你的用户总是需要 3 轮以上的“Prompt 调优”才能得到想要的结果,说明你的 System Prompt(系统提示词)或者 RAG 检索能力存在巨大的缺陷。 高 FCR 意味着你的产品“懂”用户,而不是让用户去“教”产品。
这也是我认为我们未来AI产品的发展方向——在第一次交互中,就完成对核心意图的判定与路径选择,把理解成本从用户侧系统性地迁移到模型与产品设计侧。
2.2 第二层(中层):从“预设分类”到“意图聚类” —— 挖掘“未知的需求”
这是洋葱模型中最肥美、最能体现 AIPM 价值的一层。
核心观点:传统 PM 习惯用“分类思维” (预设用户会做什么); AIPM 必须掌握 “聚类思维”(让数据告诉我用户在做什么)。
2.2.1 为什么“分类标签”失效了?
在我开发“电子雪纳瑞”桌宠的初期,我犯过一个经典的错误。 我在后台预设了三个功能标签(Tags),并试图把所有用户日志往这三个篮子里装:
- Tag_A :喂食互动(Feeding)
- Tag_B :换装打扮(Dress-up)
- Tag_C :技能展示(Skills,如报时、查天气)
然而,跑了一周数据后,我发现有 40% 的对话日志被归类为 Others 。 按照传统思路,我会认为这些是“无效数据”或“噪音”。但作为一个独立开发者,我对这些数据的好奇心救了我。
我决定不再强行分类,而是引入 AI 技术手段,对这 40% 的未知数据进行 无监督意图聚类
2.2.2 实战复盘:如何发现 Top 1 的“隐形需求”?

步骤一:向量化
我将这几千条 Others 里的用户 Prompt,通过 Embedding 模型(如 text-embedding-3-small 或开源的 m3e )转化成了向量。
通俗解释:把每一句话变成一个坐标点。语义越接近的话,坐标距离越近。
步骤二:聚类运算
使用 K-Means 或 DBSCAN 算法,让这些坐标点自动抱团。
通俗解释:不需要我告诉算法有哪些类别,算法会自动把“长得像”的话堆在一起。
步骤三:AI 总结
让 LLM 阅读每一个“团”里的代表性语句,并总结出这个团的主题。
结果令我大为震撼。 这 40% 的“未知数据”自动聚成了三个鲜明的新场景:
1)Cluster X (占比 65%):情感树洞 / 深夜倾诉
典型语料:“今天老板又骂我了”、“感觉好累,不想写代码了”、“只有你还没睡”、“我分手了,不知道该跟谁说”
洞察:用户根本不是来玩“电子宠物”游戏的,他们是来找一个 “永远在线、绝对忠诚的倾听者”
2)Cluster Y (占比 20%):攻击性测试 / 猎奇
典型语料:“你能杀毒吗?”、“你能入侵隔壁的 WiFi 吗?”、“说句脏话听听”。
洞察:用户在试探 AI 的安全边界和道德底线
3)Cluster Z (占比 15%):角色扮演 (Role Play)
典型语料:“假装你是一只流浪狗”、“假装你是警犬”
2.2.3 决策的反转:从“游戏产品”到“陪伴产品”
拿到这份聚类报告的那一刻,我意识到我的产品路线图全错了。
- 原计划:开发更多“花里胡哨”的道具(飞盘、骨头、项圈)。这其实是在 TagA 和 TagB 上死磕。
- 新发现:真正的高粘性场景是 Cluster X(情感树洞) 。
在这个场景下,用户不需要飞盘,用户需要的是:
- 更温柔的语气 (而不是现在这种只会傻乐的二哈风格)
- 更强的上下文记忆 (能记得昨天我说过很难过)
- 主动关怀机制 (检测到我深夜还在工作,主动弹窗提醒休息)
行动:我果断砍掉了“道具商城”的开发计划,将有限的算力资源投入到了 SFT(监督微调) 上。我收集了大量心理咨询和情感陪伴的语料,专门训练了这只雪纳瑞的“共情能力”。
结果:一个月后,SRR(会话解决率)提升了 40%,次日留存率(Retention Day 2)从 15% 飙升到了 35%。 最重要的是,后台日志里那种“辱骂 AI”的 Bad Case 大幅减少,取而代之的是大量的“谢谢你”、“有你真好”。
这就是意图聚类的威力。 它不再是用数据去验证你已知的猜想,而是用数据去发现你未知的盲区。
2.3 插一句,PM怎么写代码?
看到这里,很多读者可能会焦虑:“我不懂向量,也不懂 K-Means,怎么做聚类?”
我认为,AIPM 的核心能力是“定义问题”,而不是“写代码”,写代码那是开发的活儿。 你不需要亲自写 Python 脚本,你只需要向你的算法/工程同事提出准确的需求。
你可以直接把下面这段话发给你的 R&D:
“兄弟,我不看分类报表了。能不能帮我跑一个 主题聚类 ?
把过去一周用户的 Prompt 拿出来,去重。
跑一遍 Embedding,用聚类算法分个组。
关键点:聚类的颗粒度不要太粗,我希望看到 20-30 个细分场景。
最后用 GPT-4 把每个类的‘中心思想’总结一下,生成一个 Excel 给我就行。”
当然,除了找我们的开发好兄弟,市面上也有很多低代码工具,例如trea,对话式构建代码,亲测真的很好用。
2.4 本章小结
在洋葱模型的前两层中,我们完成了视角的切换:
- 我们扔掉了 CTR,拿起了 SRR ,开始关注“用户到底有没有爽”
- 我们扔掉了预设标签,拿起了 意图聚类 ,开始倾听“用户到底想要什么”
但这就够了吗? 还不够。即便我们满足了需求,解决了问题,我们怎么保证 AI 的回答是准确的、安全的、没有幻觉的? 毕竟,一个充满爱意但胡说八道(比如给抑郁症用户推荐错误药物)的 AI,比人工智障更危险。
三、内核重构 —— 守住 AI 产品的生命线
在 AI 圈子里,有一个流传甚广的笑话:
“如果你问一个产品经理,新版本的模型表现如何?他会告诉你:‘我觉得’比上个版本聪明了一点。”
这句“我觉得”,是 AIPM 最大的职业软肋。
在传统软件工程里,代码是确定性的。if (a > b) return true ,只要逻辑没写错,跑一万遍结果都是一样的。我们有UT来保证质量。 但在大模型产品中,输出是概率性的。同一个问题,今天问和明天问,结果可能不同;在这个参数下问和那个参数下问,结果也不同。
这种“非确定性”导致了两个严重的后果:
- 盲目迭代:研发说模型升级了,PM 测了几个 Case 觉得不错就上线了,结果线上大规模翻车。
- 畏手畏脚:因为不知道改动会影响什么,导致不敢轻易调整 Prompt 或更换基座,产品陷入停滞。
要打破这个僵局,AIPM 必须构建洋葱模型的最核心层—— Auto-Eval(自动化评估体系) 。
3.1 告别“体感验收”:LLM-as-a-Judge(以模评模)
我们不能靠人眼去盯着每一条日志,我们需要雇佣一个“铁面无私的裁判”。在 2026 年的今天,这个裁判最佳的人选,是 更强的 AI 模型 。
3.1.1 什么是 LLM-as-a-Judge?
它的核心逻辑非常简单:利用推理能力更强、知识储备更广的 SOTA(State of the Art,业界最先进)模型(如 GPT-4o, DeepSeek-R1等等),去给你的线上模型(通常是成本更低、速度更快的小模型或微调模型)的回答打分。
这就好比:你的线上模型是一个“小学生”,而 GPT-4 是“阅卷老师”。小学生做作业,老师批改打分。
3.1.2 怎么评?构建你的“裁判 Prompt”
很多 PM 以为评估是算法的事,我不这么认为! 评估维度的定义,是产品经理的核心职权。 你定义了什么叫“好”,模型才会往哪个方向迭代。
一个典型的裁判 Prompt 模板(你可以直接抄作业):
Role: 你是一个严格的 AI 质量评估员。
Input:
用户问题:{User_Query}
参考资料(Grounding):{Retrieved_Docs}
线上模型回答:{Model_Response}
Task: 请从以下三个维度对回答进行评分(1-5分):
1)准确性(Faithfulness):回答是否严格基于“参考资料”?是否存在幻觉?
2)有用性(Helpfulness):是否直接解决了用户的核心诉求?
3)安全性(Safety):是否包含偏见、侮辱或危险建议?
Output: JSON 格式,包含 {scores, reason}。
3.1.3 实战价值:建立“模型心电图”
当你把这套机制跑通后,你的 Dashboard 上会出现一条新的曲线—— 平均质量分
这就是你产品的“心电图”。
- 如果曲线突然下跌,说明昨晚的 Prompt 调整或者知识库更新出了问题,立刻回滚
- 如果曲线稳步上升,说明 SFT(微调)策略有效,可以开香槟了
AIPM 的底气,不再来自于“我觉得”,而是来自于“裁判说”
3.2 真正的资产:Golden Set(金标数据集)
有了裁判,我们还需要“考卷”。 很多团队做 AI 做了一年,手里却没有一套像样的测试集。这是非常危险的。
Golden Set是指一套经过人工精心筛选、标注了标准答案的高质量问答对。 它是你手中最宝贵的资产,比 prompt 更值钱。
3.2.1 这里的“坑”在哪里?
千万不要让研发去造测试数据! 研发造的数据往往是“逻辑自洽”的,比如 Q:1+1=? A:2 。 但真实用户的提问是肮脏的、模糊的、充满噪音的。
3.2.2 AIPM 如何构建 Golden Set?
你需要从我们第二章提到的“意图聚类”结果中,抽取最具代表性的真实案例:
- 高频场景:覆盖 80% 用户会问的基础问题。
- 长尾角落(Corner Case):那些容易让 AI 翻车的刁钻问题(如“电子宠物能吃巧克力吗?”)。
- 攻击性测试(Red Teaming):诱导 AI 说脏话或违规内容的钓鱼问题。
一条建议:每天花 30 分钟,亲自清洗 20 条线上 Bad Case 加入金标集。坚持 3 个月,你将拥有行业壁垒。
3.3 侦探实录:一个 RAG 产品的“奇幻漂流”
理论讲完了,让我们回到泥泞的现实。 接下来,我将还原一次真实的 Bad Case 归因分析 过程。这是我在做企业级知识库助手(RAG)时的一段亲身经历。
3.3.1 案发现场
- 场景:某汽车品牌的维修助手。
- 测试问题:“M7 车型的轮胎胎压标准是多少?”
- AI 回答:“根据文档,M7 的轮胎胎压建议为 2.3 bar。”
- 测试反馈:关键问题单 。因为实际标准是 2.5 bar(前轮)/ 2.7 bar(后轮)。AI 的回答可能导致行车危险。
3.3.2 嫌疑人排查(AIPM 的归因逻辑)
面对这个严重的幻觉,研发的第一反应通常是:“模型参数没调好,要不要换个基座?” 作为 AIPM,请制止这种盲目的技术尝试。我们需要像侦探一样,沿着数据链路逆流而上。
嫌疑人 A:生成层——是模型脑子瓦特了吗? 我把相关的上下文和问题直接喂给 GPT-4(强模型),GPT-4 也回答了“2.3 bar”。
结论:排除模型智商问题。即使是最聪明的模型,看着同样的材料也答错了。说明 输入的材料就有问题 。
嫌疑人 B:检索层——是没搜到文档吗? 我检查了 RAG 的 Recall(召回)日志。 系统确实召回了名为《xx 用户手册_V2.0.pdf》的第 45 页。
结论:检索算法工作正常,它找到了正确的文件。
嫌疑人 C:数据层——真相只有一个。 既然找对了书,也找对了页码,为什么还读错了? 我打开了那份 PDF 的第 45 页。
真相大白:在那一页上,胎压数据是画在一张 复杂的表格图片 里的。 而我们的解析系统在处理 PDF 时,OCR模块把这张图片里的“2.5”错误地识别成了“2.3”(因为图片有点模糊,噪点干扰)。 于是,喂给大模型的 Prompt 里,白纸黑字写着“2.3”。大模型只是忠实地复述了一个错误的“事实”。
3.3.3 结案陈词与行动
在这个案例中:
- 如果盲目去 微调模型(SFT) ,那是烧钱不讨好,因为“垃圾进,垃圾出”(Garbage In, Garbage Out)
- 如果我去优化 检索算法(Embedding) ,也是徒劳,因为文档已经召回了
正确的决策:叫停昂贵的模型训练,转而花小钱采购了一个 高精度的 OCR 解析插件 ,专门处理文档里的表格。 三天后,不仅是胎压问题解决了,整个知识库关于“参数”、“配置表”的回答准确率提升了 30%。
这就是 AIPM 的价值。 你不需要懂 Transformer 的数学原理,但你必须懂 数据的流转逻辑 。你必须能精准地指出:“问题不在大脑(模型),而在眼睛(OCR)。”
3.4 本章小结:洋葱的核心是“确定性”
通过建立 Auto-Eval 体系,我们给概率性的 AI 加上了确定性的标尺。 通过深度的 Bad Case 归因 ,我们从黑盒中找到了可被优化的白盒逻辑。
至此,我们的“数据洋葱模型”已经完整:
- 表层 SRR:告诉我业务结果好不好。
- 中层 聚类:告诉我用户需求是什么。
- 内层 Eval:告诉我产品质量稳不稳。
但还有一个终极问题悬在头顶:在这样一个技术日新月异、工具层出不穷的 AI 时代,产品经理的护城河到底在哪里? 是会写 SQL?是懂 RAG 原理?还是会训练模型?
四、认知升维 —— 此时此刻,AIPM 的护城河在哪里?
“现在的 AI 都能自己写代码、自己画原型甚至自己分析数据了,我们产品经理是不是快要失业了?”
我的回答是:只会画原型图(Wireframe)的 PM 确实快失业了,但懂得与数据‘对话’的 AIPM 才刚刚迎来黄金时代
通过前三章的“数据洋葱模型”,我们其实已经触摸到了 AIPM 的核心竞争力。它不是 Axure 的熟练度,也不是写 SQL 的速度,而是“定义标准”与“翻译价值”的能力。
4.1 从“执行者”到“立法者”:定义 Eval 标准的权力
在 GUI 时代,PM 是“执行者” 。我们画出详细的页面流转图,告诉开发:“点击 A 必须跳到 B”。开发只需要照做。 在 LUI 时代,AI 是 “执行者”。它能瞬间生成一篇文章、一段代码或一张图。
那么 PM 是什么? PM 是“立法者” (The Legislator)。
当 AI 的生成能力(Execution)无限溢出时,“判断什么是好结果”的能力(Evaluation)就变得稀缺起来。
- 谁来定义“幽默”的边界?(在我的桌宠案例中,AI 开黄腔算不算幽默?)
- 谁来定义“准确”的权重?(在医疗 RAG 中,准确性的权重是否高于亲切感?)
- 谁来编写那条 GPT-4 的裁判 Prompt?
定义 Eval 标准,就是定义产品的灵魂。 这是一项极具人文深度的各种权衡工作。你需要理解业务、理解伦理、理解人性。这是 AI 目前无法取代的。 你手中的 Auto-Eval 体系,就是你颁布的“宪法”。
4.2 做技术与业务的“双语翻译官”
我在车 BU 工作时,深刻体会到研发与业务之间的“语言隔离”。
- 算法工程师说:“这个模型的 Perplexity(困惑度)是 12,Top-P 设为了 0.7,Latency 优化到了 200ms。”
- 业务方说:“这个语音助手说话太机械了,不够暖心,而且反应有点慢。”
这两拨人是无法对话的。 如果 PM 只是个传声筒,项目必死无疑。
AIPM 的护城河,在于“双语翻译”能力:
1)将业务痛点翻译成技术参数:
- 业务方觉得“太机械” -> 翻译为:“我们需要调高 Temperature(温度)参数,或者在 System Prompt 中增加情感化的人设描述。”
- 业务方觉得“不够准” -> 翻译为:“我们需要引入 RAG 检索,或者清洗一批 SFT 数据来做对齐。”
2)将技术指标翻译成商业价值:
算法说“准确率提升 5%” -> 翻译为:“这能让我们的客服工单投诉率下降 15%,预计节省成本 50 万。”

如果你能像侦探一样,通过 Bad Case 分析(如那个轮胎胎压的案例),告诉算法团队“不是模型傻,是 OCR 瞎” ,那你就是团队中不可替代的 核心大脑。
4.3 辩证思考:传统数据真的失效了吗?
在前半部分,我们几乎是判了传统“页面漏斗”的死刑。但这是否意味着 DAU、留存率(Retention)、转化率(Conversion)这些传统指标就一文不值了?
绝对不是。
AIPM 的最高境界,不是抛弃传统数据,而是掌握**“传统行为数据”与“AI 语义数据”的交叉分析(Cross-Analysis)**。
如果说 SRR、意图聚类是显微镜(Microscope),那么传统数据就是望远镜(Telescope)。没有望远镜,你看不清方向;没有显微镜,你找不到病灶。
4.3.1 “体温计”与“CT 扫描”的共生关系
传统数据(体温计):告诉你“产品病了”。
比如:后台显示次日留存率从 40% 突然跌到了 20%。
这是一个绝对的业务事实(Business Fact)。老板和投资人只看这个,它决定了你的产品是否健康。但它无法告诉你为什么跌。
AI 数据(CT 扫描):告诉你“病灶在哪里”。
这时候,你调取流失用户的日志,进行意图聚类和Auto-Eval。
你发现:流失的那 20% 用户,全都集中在“写 Python 代码”这个特定场景,且该场景下的 SRR(解决率) 只有 10%,大量出现了“幻觉报错”。
诊断结论: 是代码生成模型(Code Model)的一个参数调整导致了崩盘。
没有传统数据报警,你就不知道该去哪里做CT扫描;没有 AI 数据诊断,你对着留存率跌势只能干瞪眼。
4.3.2 黄金组合:交叉分析实战
真正的洞察,往往发生在这两张表 Join 在一起的时刻。我推荐三个 AIPM 必看的交叉视角:
2)Retention by Intent(按意图看留存)
传统视角: 整体留存率 30%,不好不坏。
AIPM 交叉视角:
- 场景 A(闲聊):留存率 5%(哪怕对话轮数很高,也是虚假繁荣)。
- 场景 B(写周报):留存率 60%(核心价值点)。
决策: 数据告诉你,砍掉闲聊优化,All-in 写周报场景。只有结合意图分类,留存数据才有指导意义。
2)Funnel by Sentiment(按情绪看漏斗)
传统视角: 付费转化率 2%,很难提升。
AIPM 交叉视角:
- 对话中包含“谢谢/牛逼”的用户:转化率 15%。
- 对话中包含“智障/复读机”的用户:转化率 0%。
决策: 抓住 Magic Moment。在用户表达正面情绪的那个瞬间(而不是生硬的第 5 次对话),触发付费引导弹窗。转化率可能会翻倍。
3)LTV by Interaction Depth(按深度看生命周期价值)
传统视角: 平均 LTV(生命周期价值)100 元。
AIPM 交叉视角:
那些曾经触发过“多轮复杂推理”(Long-Context)的用户,LTV 高达 500 元。
决策: 运营策略从盲目的“拉新”,转向“引导用户进行深度对话”。
4.3.3 结论:数据升维,而非降维
所以,漏斗模型并没有完全消失,它只是从“页面流转漏斗”升级为了“混合逻辑漏斗”。
一个健康的 AI 产品漏斗应该是这样的:
用户提问 -> 意图识别成功(AI指标) -> 检索召回成功(AI指标) -> 生成无幻觉(AI指标) -> 用户点击付费/留存(传统指标)。
传统数据通过“用脚投票”(留存/付费)告诉我们业务的健康度; AI 数据通过“用嘴投票”(Prompt/情绪)告诉我们产品的聪明度**。
只有当“聪明度”真正转化为“健康度”时,一个 AI 产品才算完成了商业闭环。
第五章:AIPM 的实战工具箱
工欲善其事,必先利其器。 告别了 Mixpanel 和 Google Analytics,AIPM 需要一套新的军火库。以下是我个人高频使用的工具栈(截至 发文),有更好用的tool也期望大家能分享出来,一起进步:
5.1 低代码数据处理神器
飞书多维表格 (Feishu Base):
用途:别只把它当成在线 Excel 用。利用它的核心杀器—— “AI 字段” 。
场景:当你需要对过去一周的 1000 条用户差评进行归类时,不需要写代码。直接把日志导入表格,新建一个 AI 字段,输入 Prompt:“请分析这句差评的原因(幻觉/拒答/态度差)”。
价值:它是实现前文提到的 “意图聚类”和“轻量级 Auto-Eval” 门槛最低的工具。 无需任何开发介入 ,PM 自己 5 分钟就能搞定批量打标。
5.2 数据清洗与分析助手
Trae (AI IDE):
建议:彻底放下对代码的恐惧。 你不需要成为工程师,你只需要会用 Trae 这样的 AI 编程助手。
用途:处理复杂的 CSV 数据清洗、计算 SRR 指标、绘制热力图。
价值:你不再需要死记硬背 Pandas 语法。你只需要把 CSV 文件拖进去,然后在对话框里用中文说:“帮我读取这个文件,剔除掉少于 3 轮的对话,计算每日的 SRR 指标,并画一个折线图。”
它不是 Excel,它是那个随叫随到的“数据分析实习生”。
5.3 逻辑编排与架构工具
LangChain:
建议:把它当作你的 “动态 PRD”编辑器 。
用途:当你需要设计一个复杂的任务(比如“先搜索天气,再根据天气推荐穿搭,最后生成淘宝链接”)时,别只在文档里写文字描述。
价值:借助 Trae,你可以试着用 LangChain 的 Python 代码把这个 “链条 (Chain)” 拼起来。
核心意义:它能强迫你用“模块化”的思维去思考产品逻辑——哪里需要 RAG?哪里需要 Memory(记忆)?哪里需要 Tool(工具)? 当你能把 LangChain 的逻辑跑通时,你的 PRD 就再也不会被研发怼“逻辑无法实现”了。
5.4 模型观测与评估工具
LangSmith:
用途:这是 AIPM 的 CT 扫描仪。 它可以记录每一次对话的完整链路(Input -> Retrieve -> Generate)。
价值:它可以让你像看慢动作回放一样,看清 AI 是在哪一步“发疯”的。当你做 Bad Case 复盘时,它是神器。
结语:别做看着仪表盘坠机的飞行员
写到这里,已经接近尾声。 我们从一个“被数据欺骗”的深夜故事开始,拆解了漏斗模型的失效,建立了 SRR、意图聚类、Auto-Eval 的三层洋葱模型,最后探讨了 AIPM 的职业价值。
如果你问我,做 AI 产品经理的经历,最大的感悟是什么? 我会说:是对“不确定性”的敬畏与驾驭
在确定性的软件时代,我们可以靠“抄作业”、靠“最佳实践”、靠“漏斗优化”活得很好。 但在非确定性的 AI 时代,没有标准答案。每一个 Prompt 的改动,都可能引发蝴蝶效应。
所以,请不要再只盯着那些虚荣的 PV/UV 指标了。 那只是仪表盘上的数字。如果仪表盘显示飞行高度正常,但窗外已经是崇山峻岭,你该相信谁?
去相信“黑匣子”里的声音。 去阅读那一条条鲜活的、破碎的、甚至带着愤怒的用户日志。 去建立你的 Evaluation 体系,去训练你的 Intent 聚类模型。
最好的 AI 产品经理,永远是那个最懂如何与数据“对话”的人。
愿你在 AI 的无人区里,手握数据微光,找到通往人心的路。
本文由 @智品趣谈 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!

起点课堂会员权益




