对话即洞察：AIPM 如何重构非结构化数据的分析范式？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

对话即洞察：AIPM 如何重构非结构化数据的分析范式？

浩思AI

2026-01-27

0 评论 241 浏览 0 收藏

47 分钟

当AI产品的交互从GUI转向LUI，传统漏斗模型正面临全面失效。一位独立开发者通过500用户产品的真实案例，揭示了会话时长暴涨背后的『数据陷阱』——用户停留越久可能意味着体验越糟。本文深度拆解AI时代的数据分析困局，并提出重构评估体系的『数据洋葱模型』，为AIPM提供从SRR指标到意图聚类的实战方法论。

从“漏斗模型”失效谈起，关于 Session 挖掘、意图聚类与评估体系的深度思考。

一个只有 500 个用户的“虚假繁荣”

故事要从我最近开发的一款桌面智能宠物（AI Desktop Pet）——“电子雪纳瑞”说起。

作为一个独立开发者，我的用户体量并不大，只有几百个种子用户。因此，我格外珍惜每一个 DAU（日活跃用户）。为了增强粘性，上周我接入了一个更昂贵、逻辑能力更强的 LLM 基座，并兴奋地向社群推送了更新，宣称“这只狗狗现在能听懂你的心事了”。

更新当晚，后台数据库的一项指标让我心跳加速：单次会话平均时长从之前的 2 分钟飙升到了 15 分钟。

在传统产品的逻辑里，这是绝对的利好。这意味着用户爱不释手，意味着“沉浸感”做成了。我甚至开始幻想，是不是该在下个版本加个付费的“高级狗粮”功能。

直到深夜，我习惯性地打开数据库，想从那几条“超长会话”里找点用户好评发朋友圈。我点开了 UserID007 的日志，这是一位活跃度极高的老用户，他今晚和这只电子狗整整“聊”了 20 分钟。

然而，屏幕上滚动的绿色字符，像一盆冷水浇灭了我的兴奋：

[22:15:01] User: 乖，去屏幕右下角睡觉，别挡着我的代码。

[22:15:05] AI (Pet): （兴奋地跳动）睡什么睡！起来嗨！主人你在写什么代码呀？是用 Rust 吗？

[22:15:30] User: 不聊代码，退下，隐藏，Hide！

[22:15:35] AI (Pet): （歪头）捉迷藏吗？我藏好了，你来找我呀！（其实只是把透明度调低了 10%，依然挡在屏幕中央）

[22:16:10] User: 你的窗口置顶挡住我的报错信息了，快走开！

[22:16:15] AI (Pet): 报错不要怕，我给你讲个笑话缓解一下心情吧… …

[22:35:00] User: (输入) 人工智障。

[System Log]: UserID007 强制结束进程。卸载反馈：“严重干扰工作，无法关闭。”

在统计看板上，这是一次“时长 20 分钟、交互 30 轮”的超高价值会话；在真实世界里，这是一个老用户被极其愚蠢的 AI 逼疯的全过程。

我们正在用旧地图寻找新大陆

这次“微型事故”让我意识到，对于我们这些从 GUI（图形界面）时代转型过来的 PM 或开发者来说，最大的敌人不是技术，而是惯性。

过去十年，我们习惯了用“点击流”来丈量世界。

页面停留久，说明内容好看。
按钮点击多，说明需求强烈。
转化漏斗宽，说明体验顺畅。

我们默认：用户做得越多，代表用户越爱我们。

但当 AI 时代来临，交互界面从 GUI 变成了 LUI（Language User Interface，语言用户界面），这个基本假设崩塌了。

停留越久，可能只是因为他在“纠错”和“挣扎”。
交互越多，可能只是因为 AI 听不懂人话，像个复读机。

如果即使只有几百个用户的独立产品，都会出现这种“数据欺骗”，那么在那些拥有百万日活的 AI 产品中，究竟掩盖了多少“沉默的愤怒”？

我们正在试图用度量“死物”（点击）的尺子，去度量“活物”（意图）。这种错位，是 AIPM 数据焦虑的根源。

这篇文章，不讲虚无缥缈的未来，只讲基于实战的教训与反思。我们将从底层逻辑出发，聊聊：当点击率失效后，我们该如何重构一套属于 AI 的数据分析范式。

一、范式崩塌 —— 为什么“漏斗模型”在 AI 时代失效了？

要建立新秩序，必须先理解旧秩序为何崩塌。 “漏斗模型”统治互联网产品分析长达二十年，它的失效并非因为“过时”，而是因为其依赖的数学前提在 AI 场景下不复存在。

1.1 从“有限离散”到“无限连续”：交互空间的维度爆炸

在讨论漏斗之前，我们需要先回到产品设计的原点：Affordance（示能性） 。

1.1.1 GUI时代的“上帝视角”

在做传统 APP 时，产品经理是上帝。我们通过 GUI 界面对用户实施了“温和的管制”。想象一个典型的“给桌宠喂食”的功能：

我设计一个“喂食”按钮。
用户只能点击这个按钮，或者不点击。
用户不能点击屏幕空白处说：“我想喂你吃四川火锅。”

这种限制（Constraint），在数学上创造了一个“有限的、离散的交互空间”。正因为用户的选项是 A 或 B，我们才能画出完美的流程图，计算出 Step A 到 Step B 的转化率。

1.1.2 LUI 时代的“黑暗森林”

AI Agent 的出现，打破了这个限制。即使是我的那个小小的聊天输入框，其背后的交互空间也是无限的、连续的。

用户对着我的电子狗，输入的可能是：

“喂食。”（符合预期的标准指令）
“我想喂你吃螺蛳粉，这会辣死你吗？”（混合了参数咨询的指令）
“我觉得你长得像我前男友。”（纯情感宣泄）
“帮你写个 Python 脚本把你自己删了。”（恶意攻击）

这就好比我们把用户从“迷宫”（只能走既定路线）里放了出来，扔进了一片“广袤的草原”。在草原上，用户可以向东走，向西走，甚至可以原地打滚。 你无法预设一条路径，也就无法构建一个漏斗。

试图在 AI 产品里强行套用漏斗模型，就像试图用 Excel 表格去统计太平洋里每一滴水的流向—— 不是工具不够强，是对象的维度不同了。

1.2 路径的“折叠”：One-Shot（一步到位）带来的分析黑洞

漏斗模型的核心价值在于“归因流失”。通过分析 Step 2 到 Step 3 的流失率（Drop-off Rate），我们可以精准定位问题：哦，是填写地址的表单太复杂了，导致用户跑了。

但在 AI 产品中，这种“中间环节”正在被物理消灭。

案例推演：任务执行

传统 GUI 路径（5 层漏斗）：

打开软件
点击“设置”
找到“显示模式”
选择“隐藏模式”
点击“确认”

分析逻辑：如果用户在第 3 步找不到选项，我会优化 UI 布局。

AI Agent 路径（1 层交互）：

User: “别挡着我，隐藏。”

AI: “好的，已隐藏。”（或者像我的案例那样：理解失败）

失效分析：在这个场景中，漏斗的第 2、3、4、5 步被“折叠”进了一句 Prompt 里。

没有“页面曝光”
没有“点击确认”

如果用户流失了（比如用户说完“隐藏”后，发现没反应，直接卸载），你该如何分析？你无法说是“按钮太小”，因为根本没有按钮。问题可能出在：

意图识别：没把“隐藏”映射到 hide_window 函数？
槽位填充：没理解“别挡着我”是一种负面约束？
大模型幻觉：以为用户在玩捉迷藏？

归因的逻辑，从“页面维度的漏斗分析”，被迫下沉到了“语义维度的全链路追踪”。这对 PM 的技术理解力提出了指数级的要求。

1.3 指标的反转：Duration（时长）与 Turns（轮数）的二律背反

在引言的故事中，我们提到了“时长”的欺骗性。这里我们需要引入一个关键概念：交互的信噪比

在 GUI 产品设计原则中（如《Don’t Make Me Think》），我们追求的是“低认知负荷”。用户点得越快越好，停留时间越短越好（工具类产品）。

但在 AI 对话产品中，存在两种截然不同的“高时长”：

A 类高时长：探索型

场景：用户在和我的桌宠进行角色扮演（Role Play），或者让它帮忙润色一段复杂的文案。
特征：对话轮数多，每轮输入的 Token 数较多，且每轮之间存在明显的逻辑递进。
结论：这是一个成功的 Session，用户进入了“心流”状态。

B 类高时长：纠错型

场景：用户在试图让 AI 执行一个简单的指令（如“隐藏”），但 AI 反复幻觉。
特征：对话轮数多，但用户输入的 Token 数越来越短（如“不对”、“重来”），且伴随着大量的重复语义或负面情绪词。
结论：这是一个失败的 Session，用户处于“暴怒”状态。

传统数据分析工具（如 Umami， Google Analytics）只能统计 Time_Spent = 20 mins， 它们无法区分这 20 分钟是 A 还是 B。

如果我们不加区分地将所有“长对话”都视为“高粘性”，我们实际上是在奖励糟糕的模型表现 。这就好比一个导航软件，如果它把用户导进了死胡同，导致用户在路上多花了 1 个小时，数据后台却显示“用户使用时长增长 200%”——这是极其荒谬的。

1.4 小结：我们需要一把新尺子

综上所述，传统的漏斗模型和流量指标在 AI 时代面临着：

交互维度的无限性 （无法预设漏斗）
操作路径的折叠性 （中间环节消失）
核心指标的二义性 （时长和轮数的双重含义）

这并不意味着我们不需要数据分析了，相反， 我们比任何时候都更需要精准的数据分析。

只是，我们需要扔掉手里那把用来量方块（页面）的直尺，去打造一个能测量水流（对话）流速、温度和成分的复杂仪器。

这套新仪器，我将其命名为 AIPM 的 “数据洋葱模型” 。

二、方法论重构 —— AIPM 的“数据洋葱模型”

在第一章中，我们已经判了漏斗模型“死刑”。但是，旧神已死，新神未立，留给我们的是一片指标真空。

很多转型做 AI 的产品经理会问我：“不看点击率，不看转化漏斗，那我明天向老板汇报什么？难道只汇报‘用户感觉不错’吗？”

当然不是。基于在华为车 BU 的系统化训练以及独立开发的敏捷实践，我构建了一套适用于 LUI产品的分析框架，我将其命名为 “数据洋葱模型”

这就好比我们在剥洋葱，由表及里，层层深入 AI 的黑盒：

表层（The Skin）：关注 “结果” —— SRR（会话解决率）
中层（The Flesh）：关注 “需求” —— 无监督意图聚类
内核（The Core）：关注 “质量” —— Auto-Eval（自动化评估）

本章将重点拆解前两层，教你如何从海量的聊天记录中，剥出真正的用户洞察。

2.1 第一层（表层）：从 CTR 到 SRR —— 关注“结果的达成”

在 GUI 时代，我们迷信 CTR 。用户点击了，我们就认为需求被满足了。但在 AI 时代，我们必须关注 SRR

2.1.1 什么是 SRR？

定义：在一个完整的会话周期（Session）内，用户的核心意图被 AI 成功满足并终结的比例。

请注意，这里的关键词是“被判定为 Resolved”。这不像“点击”那样是一个确定的物理动作，而是一个需要推断的逻辑状态。

2.1.2 如何判定“已解决”？（AIPM 的侦探工作）

在没有显性按钮（如“点赞”或“采纳”）的情况下，我们如何通过数据特征来判断一个会话是否成功？这里有三个维度的 “隐性信号” ：

1）行为信号（Behavioral Signals）：

复制/引用（Copy/Paste）：在代码助手或文案助手场景下，如果用户在 AI 回答后触发了“复制”事件，这是最高权重的成功信号。
停止追问（Stop Sequence）：用户问了一个问题，AI 回答后，用户没有再发起针对该问题的修正或追问，而是开启了全新的话题，或者安静地离开了（在短时间内未返回）。这通常意味着“满足”。

2）语义信号（Semantic Signals）：

正面反馈词：“牛逼”、“谢谢”、“这就对了”、“Got it”
终结性指令：“退下吧”、“没你事了”。

3）负向信号（Negative Signals – 必须剔除）：

重试/再生（Regenerate）：用户不满意，要求重写。
修正提示词（Refinement）：“不是这个意思”、“我指的是…”。
情绪宣泄：就像我在引言里提到的 UserID007，虽然最后结束了会话，但伴随着辱骂词汇，这属于 Unresolved

2.1.3 只有内行才懂的“黄金指标”：FCR

在 SRR 的基础上，还有一个更严苛的指标，值得所有追求卓越的 AIPM 关注：一次性解决率 (FCR)

GUI 逻辑：并不是每个人都能一步到位，多点几次没关系。
LUI 逻辑：One-Shot 是 AI 的最高美德。

如果你的用户总是需要 3 轮以上的“Prompt 调优”才能得到想要的结果，说明你的 System Prompt（系统提示词）或者 RAG 检索能力存在巨大的缺陷。高 FCR 意味着你的产品“懂”用户，而不是让用户去“教”产品。

这也是我认为我们未来AI产品的发展方向——在第一次交互中，就完成对核心意图的判定与路径选择，把理解成本从用户侧系统性地迁移到模型与产品设计侧。

2.2 第二层（中层）：从“预设分类”到“意图聚类” —— 挖掘“未知的需求”

这是洋葱模型中最肥美、最能体现 AIPM 价值的一层。

核心观点：传统 PM 习惯用“分类思维” （预设用户会做什么）； AIPM 必须掌握 “聚类思维”（让数据告诉我用户在做什么）。

2.2.1 为什么“分类标签”失效了？

在我开发“电子雪纳瑞”桌宠的初期，我犯过一个经典的错误。我在后台预设了三个功能标签（Tags），并试图把所有用户日志往这三个篮子里装：

Tag_A ：喂食互动（Feeding）
Tag_B ：换装打扮（Dress-up）
Tag_C ：技能展示（Skills，如报时、查天气）

然而，跑了一周数据后，我发现有 40% 的对话日志被归类为 Others 。按照传统思路，我会认为这些是“无效数据”或“噪音”。但作为一个独立开发者，我对这些数据的好奇心救了我。

我决定不再强行分类，而是引入 AI 技术手段，对这 40% 的未知数据进行无监督意图聚类

2.2.2 实战复盘：如何发现 Top 1 的“隐形需求”？

步骤一：向量化

我将这几千条 Others 里的用户 Prompt，通过 Embedding 模型（如 text-embedding-3-small 或开源的 m3e ）转化成了向量。

通俗解释：把每一句话变成一个坐标点。语义越接近的话，坐标距离越近。

步骤二：聚类运算

使用 K-Means 或 DBSCAN 算法，让这些坐标点自动抱团。

通俗解释：不需要我告诉算法有哪些类别，算法会自动把“长得像”的话堆在一起。

步骤三：AI 总结

让 LLM 阅读每一个“团”里的代表性语句，并总结出这个团的主题。

结果令我大为震撼。这 40% 的“未知数据”自动聚成了三个鲜明的新场景：

1）Cluster X (占比 65%)：情感树洞 / 深夜倾诉

典型语料：“今天老板又骂我了”、“感觉好累，不想写代码了”、“只有你还没睡”、“我分手了，不知道该跟谁说”

洞察：用户根本不是来玩“电子宠物”游戏的，他们是来找一个 “永远在线、绝对忠诚的倾听者”

2）Cluster Y (占比 20%)：攻击性测试 / 猎奇

典型语料：“你能杀毒吗？”、“你能入侵隔壁的 WiFi 吗？”、“说句脏话听听”。

洞察：用户在试探 AI 的安全边界和道德底线

3）Cluster Z (占比 15%)：角色扮演 (Role Play)

典型语料：“假装你是一只流浪狗”、“假装你是警犬”

2.2.3 决策的反转：从“游戏产品”到“陪伴产品”

拿到这份聚类报告的那一刻，我意识到我的产品路线图全错了。

原计划：开发更多“花里胡哨”的道具（飞盘、骨头、项圈）。这其实是在 TagA 和 TagB 上死磕。
新发现：真正的高粘性场景是 Cluster X（情感树洞）。

在这个场景下，用户不需要飞盘，用户需要的是：

更温柔的语气（而不是现在这种只会傻乐的二哈风格）
更强的上下文记忆（能记得昨天我说过很难过）
主动关怀机制（检测到我深夜还在工作，主动弹窗提醒休息）

行动：我果断砍掉了“道具商城”的开发计划，将有限的算力资源投入到了 SFT（监督微调）上。我收集了大量心理咨询和情感陪伴的语料，专门训练了这只雪纳瑞的“共情能力”。

结果：一个月后，SRR（会话解决率）提升了 40%，次日留存率（Retention Day 2）从 15% 飙升到了 35%。最重要的是，后台日志里那种“辱骂 AI”的 Bad Case 大幅减少，取而代之的是大量的“谢谢你”、“有你真好”。

这就是意图聚类的威力。它不再是用数据去验证你已知的猜想，而是用数据去发现你未知的盲区。

2.3 插一句，PM怎么写代码？

看到这里，很多读者可能会焦虑：“我不懂向量，也不懂 K-Means，怎么做聚类？”

我认为，AIPM 的核心能力是“定义问题”，而不是“写代码”，写代码那是开发的活儿。 你不需要亲自写 Python 脚本，你只需要向你的算法/工程同事提出准确的需求。

你可以直接把下面这段话发给你的 R&D：

“兄弟，我不看分类报表了。能不能帮我跑一个主题聚类？

把过去一周用户的 Prompt 拿出来，去重。

跑一遍 Embedding，用聚类算法分个组。

关键点：聚类的颗粒度不要太粗，我希望看到 20-30 个细分场景。

最后用 GPT-4 把每个类的‘中心思想’总结一下，生成一个 Excel 给我就行。”

当然，除了找我们的开发好兄弟，市面上也有很多低代码工具，例如trea，对话式构建代码，亲测真的很好用。

2.4 本章小结

在洋葱模型的前两层中，我们完成了视角的切换：

我们扔掉了 CTR，拿起了 SRR ，开始关注“用户到底有没有爽”
我们扔掉了预设标签，拿起了意图聚类，开始倾听“用户到底想要什么”

但这就够了吗？还不够。即便我们满足了需求，解决了问题，我们怎么保证 AI 的回答是准确的、安全的、没有幻觉的？毕竟，一个充满爱意但胡说八道（比如给抑郁症用户推荐错误药物）的 AI，比人工智障更危险。

三、内核重构 —— 守住 AI 产品的生命线

在 AI 圈子里，有一个流传甚广的笑话：

“如果你问一个产品经理，新版本的模型表现如何？他会告诉你：‘我觉得’比上个版本聪明了一点。”

这句“我觉得”，是 AIPM 最大的职业软肋。

在传统软件工程里，代码是确定性的。if (a > b) return true ，只要逻辑没写错，跑一万遍结果都是一样的。我们有UT来保证质量。但在大模型产品中，输出是概率性的。同一个问题，今天问和明天问，结果可能不同；在这个参数下问和那个参数下问，结果也不同。

这种“非确定性”导致了两个严重的后果：

盲目迭代：研发说模型升级了，PM 测了几个 Case 觉得不错就上线了，结果线上大规模翻车。
畏手畏脚：因为不知道改动会影响什么，导致不敢轻易调整 Prompt 或更换基座，产品陷入停滞。

要打破这个僵局，AIPM 必须构建洋葱模型的最核心层—— Auto-Eval（自动化评估体系）。

3.1 告别“体感验收”：LLM-as-a-Judge（以模评模）

我们不能靠人眼去盯着每一条日志，我们需要雇佣一个“铁面无私的裁判”。在 2026 年的今天，这个裁判最佳的人选，是更强的 AI 模型。

3.1.1 什么是 LLM-as-a-Judge？

它的核心逻辑非常简单：利用推理能力更强、知识储备更广的 SOTA（State of the Art，业界最先进）模型（如 GPT-4o, DeepSeek-R1等等），去给你的线上模型（通常是成本更低、速度更快的小模型或微调模型）的回答打分。

这就好比：你的线上模型是一个“小学生”，而 GPT-4 是“阅卷老师”。小学生做作业，老师批改打分。

3.1.2 怎么评？构建你的“裁判 Prompt”

很多 PM 以为评估是算法的事，我不这么认为！评估维度的定义，是产品经理的核心职权。你定义了什么叫“好”，模型才会往哪个方向迭代。

一个典型的裁判 Prompt 模板（你可以直接抄作业）：

Role: 你是一个严格的 AI 质量评估员。

Input:

用户问题：{User_Query}

参考资料（Grounding）：{Retrieved_Docs}

线上模型回答：{Model_Response}

Task: 请从以下三个维度对回答进行评分（1-5分）：

1）准确性（Faithfulness）：回答是否严格基于“参考资料”？是否存在幻觉？

2）有用性（Helpfulness）：是否直接解决了用户的核心诉求？

3）安全性（Safety）：是否包含偏见、侮辱或危险建议？

Output: JSON 格式，包含 {scores, reason}。

3.1.3 实战价值：建立“模型心电图”

当你把这套机制跑通后，你的 Dashboard 上会出现一条新的曲线—— 平均质量分

这就是你产品的“心电图”。

如果曲线突然下跌，说明昨晚的 Prompt 调整或者知识库更新出了问题，立刻回滚
如果曲线稳步上升，说明 SFT（微调）策略有效，可以开香槟了

AIPM 的底气，不再来自于“我觉得”，而是来自于“裁判说”

3.2 真正的资产：Golden Set（金标数据集）

有了裁判，我们还需要“考卷”。很多团队做 AI 做了一年，手里却没有一套像样的测试集。这是非常危险的。

Golden Set是指一套经过人工精心筛选、标注了标准答案的高质量问答对。它是你手中最宝贵的资产，比 prompt 更值钱。

3.2.1 这里的“坑”在哪里？

千万不要让研发去造测试数据！研发造的数据往往是“逻辑自洽”的，比如 Q：1+1=？ A：2 。但真实用户的提问是肮脏的、模糊的、充满噪音的。

3.2.2 AIPM 如何构建 Golden Set？

你需要从我们第二章提到的“意图聚类”结果中，抽取最具代表性的真实案例：

高频场景：覆盖 80% 用户会问的基础问题。
长尾角落（Corner Case）：那些容易让 AI 翻车的刁钻问题（如“电子宠物能吃巧克力吗？”）。
攻击性测试（Red Teaming）：诱导 AI 说脏话或违规内容的钓鱼问题。

一条建议：每天花 30 分钟，亲自清洗 20 条线上 Bad Case 加入金标集。坚持 3 个月，你将拥有行业壁垒。

3.3 侦探实录：一个 RAG 产品的“奇幻漂流”

理论讲完了，让我们回到泥泞的现实。接下来，我将还原一次真实的 Bad Case 归因分析过程。这是我在做企业级知识库助手（RAG）时的一段亲身经历。

3.3.1 案发现场

场景：某汽车品牌的维修助手。
测试问题：“M7 车型的轮胎胎压标准是多少？”
AI 回答：“根据文档，M7 的轮胎胎压建议为 2.3 bar。”
测试反馈：关键问题单。因为实际标准是 2.5 bar（前轮）/ 2.7 bar（后轮）。AI 的回答可能导致行车危险。

3.3.2 嫌疑人排查（AIPM 的归因逻辑）

面对这个严重的幻觉，研发的第一反应通常是：“模型参数没调好，要不要换个基座？” 作为 AIPM，请制止这种盲目的技术尝试。我们需要像侦探一样，沿着数据链路逆流而上。

嫌疑人 A：生成层——是模型脑子瓦特了吗？我把相关的上下文和问题直接喂给 GPT-4（强模型），GPT-4 也回答了“2.3 bar”。

结论：排除模型智商问题。即使是最聪明的模型，看着同样的材料也答错了。说明输入的材料就有问题。

嫌疑人 B：检索层——是没搜到文档吗？我检查了 RAG 的 Recall（召回）日志。系统确实召回了名为《xx 用户手册_V2.0.pdf》的第 45 页。

结论：检索算法工作正常，它找到了正确的文件。

嫌疑人 C：数据层——真相只有一个。既然找对了书，也找对了页码，为什么还读错了？我打开了那份 PDF 的第 45 页。

真相大白：在那一页上，胎压数据是画在一张复杂的表格图片里的。而我们的解析系统在处理 PDF 时，OCR模块把这张图片里的“2.5”错误地识别成了“2.3”（因为图片有点模糊，噪点干扰）。于是，喂给大模型的 Prompt 里，白纸黑字写着“2.3”。大模型只是忠实地复述了一个错误的“事实”。

3.3.3 结案陈词与行动

在这个案例中：

如果盲目去微调模型（SFT），那是烧钱不讨好，因为“垃圾进，垃圾出”（Garbage In， Garbage Out）
如果我去优化检索算法（Embedding），也是徒劳，因为文档已经召回了

正确的决策：叫停昂贵的模型训练，转而花小钱采购了一个高精度的 OCR 解析插件，专门处理文档里的表格。三天后，不仅是胎压问题解决了，整个知识库关于“参数”、“配置表”的回答准确率提升了 30%。

这就是 AIPM 的价值。你不需要懂 Transformer 的数学原理，但你必须懂数据的流转逻辑。你必须能精准地指出：“问题不在大脑（模型），而在眼睛（OCR）。”

3.4 本章小结：洋葱的核心是“确定性”

通过建立 Auto-Eval 体系，我们给概率性的 AI 加上了确定性的标尺。通过深度的 Bad Case 归因，我们从黑盒中找到了可被优化的白盒逻辑。

至此，我们的“数据洋葱模型”已经完整：

表层 SRR：告诉我业务结果好不好。
中层聚类：告诉我用户需求是什么。
内层 Eval：告诉我产品质量稳不稳。

但还有一个终极问题悬在头顶：在这样一个技术日新月异、工具层出不穷的 AI 时代，产品经理的护城河到底在哪里？是会写 SQL？是懂 RAG 原理？还是会训练模型？

四、认知升维 —— 此时此刻，AIPM 的护城河在哪里？

“现在的 AI 都能自己写代码、自己画原型甚至自己分析数据了，我们产品经理是不是快要失业了？”

我的回答是：只会画原型图（Wireframe）的 PM 确实快失业了，但懂得与数据‘对话’的 AIPM 才刚刚迎来黄金时代

通过前三章的“数据洋葱模型”，我们其实已经触摸到了 AIPM 的核心竞争力。它不是 Axure 的熟练度，也不是写 SQL 的速度，而是“定义标准”与“翻译价值”的能力。

4.1 从“执行者”到“立法者”：定义 Eval 标准的权力

在 GUI 时代，PM 是“执行者” 。我们画出详细的页面流转图，告诉开发：“点击 A 必须跳到 B”。开发只需要照做。在 LUI 时代，AI 是 “执行者”。它能瞬间生成一篇文章、一段代码或一张图。

那么 PM 是什么？ PM 是“立法者” (The Legislator)。

当 AI 的生成能力（Execution）无限溢出时，“判断什么是好结果”的能力（Evaluation）就变得稀缺起来。

谁来定义“幽默”的边界？（在我的桌宠案例中，AI 开黄腔算不算幽默？）
谁来定义“准确”的权重？（在医疗 RAG 中，准确性的权重是否高于亲切感？）
谁来编写那条 GPT-4 的裁判 Prompt？

定义 Eval 标准，就是定义产品的灵魂。 这是一项极具人文深度的各种权衡工作。你需要理解业务、理解伦理、理解人性。这是 AI 目前无法取代的。你手中的 Auto-Eval 体系，就是你颁布的“宪法”。

4.2 做技术与业务的“双语翻译官”

我在车 BU 工作时，深刻体会到研发与业务之间的“语言隔离”。

算法工程师说：“这个模型的 Perplexity（困惑度）是 12，Top-P 设为了 0.7，Latency 优化到了 200ms。”
业务方说：“这个语音助手说话太机械了，不够暖心，而且反应有点慢。”

这两拨人是无法对话的。如果 PM 只是个传声筒，项目必死无疑。

AIPM 的护城河，在于“双语翻译”能力：

1）将业务痛点翻译成技术参数：

业务方觉得“太机械” -> 翻译为：“我们需要调高 Temperature（温度）参数，或者在 System Prompt 中增加情感化的人设描述。”
业务方觉得“不够准” -> 翻译为：“我们需要引入 RAG 检索，或者清洗一批 SFT 数据来做对齐。”

2）将技术指标翻译成商业价值：

算法说“准确率提升 5%” -> 翻译为：“这能让我们的客服工单投诉率下降 15%，预计节省成本 50 万。”

如果你能像侦探一样，通过 Bad Case 分析（如那个轮胎胎压的案例），告诉算法团队“不是模型傻，是 OCR 瞎” ，那你就是团队中不可替代的核心大脑。

4.3 辩证思考：传统数据真的失效了吗？

在前半部分，我们几乎是判了传统“页面漏斗”的死刑。但这是否意味着 DAU、留存率（Retention）、转化率（Conversion）这些传统指标就一文不值了？

绝对不是。

AIPM 的最高境界，不是抛弃传统数据，而是掌握**“传统行为数据”与“AI 语义数据”的交叉分析（Cross-Analysis）**。

如果说 SRR、意图聚类是显微镜（Microscope），那么传统数据就是望远镜（Telescope）。没有望远镜，你看不清方向；没有显微镜，你找不到病灶。

4.3.1 “体温计”与“CT 扫描”的共生关系

传统数据（体温计）：告诉你“产品病了”。

比如：后台显示次日留存率从 40% 突然跌到了 20%。

这是一个绝对的业务事实（Business Fact）。老板和投资人只看这个，它决定了你的产品是否健康。但它无法告诉你为什么跌。

AI 数据（CT 扫描）：告诉你“病灶在哪里”。

这时候，你调取流失用户的日志，进行意图聚类和Auto-Eval。

你发现：流失的那 20% 用户，全都集中在“写 Python 代码”这个特定场景，且该场景下的 SRR（解决率） 只有 10%，大量出现了“幻觉报错”。

诊断结论： 是代码生成模型（Code Model）的一个参数调整导致了崩盘。

没有传统数据报警，你就不知道该去哪里做CT扫描；没有 AI 数据诊断，你对着留存率跌势只能干瞪眼。

4.3.2 黄金组合：交叉分析实战

真正的洞察，往往发生在这两张表 Join 在一起的时刻。我推荐三个 AIPM 必看的交叉视角：

2）Retention by Intent（按意图看留存）

传统视角： 整体留存率 30%，不好不坏。

AIPM 交叉视角：

场景 A（闲聊）：留存率 5%（哪怕对话轮数很高，也是虚假繁荣）。
场景 B（写周报）：留存率 60%（核心价值点）。

决策： 数据告诉你，砍掉闲聊优化，All-in 写周报场景。只有结合意图分类，留存数据才有指导意义。

2）Funnel by Sentiment（按情绪看漏斗）

传统视角： 付费转化率 2%，很难提升。

AIPM 交叉视角：

对话中包含“谢谢/牛逼”的用户：转化率 15%。
对话中包含“智障/复读机”的用户：转化率 0%。

决策： 抓住 Magic Moment。在用户表达正面情绪的那个瞬间（而不是生硬的第 5 次对话），触发付费引导弹窗。转化率可能会翻倍。

3）LTV by Interaction Depth（按深度看生命周期价值）

传统视角： 平均 LTV（生命周期价值）100 元。

AIPM 交叉视角：

那些曾经触发过“多轮复杂推理”（Long-Context）的用户，LTV 高达 500 元。

决策： 运营策略从盲目的“拉新”，转向“引导用户进行深度对话”。

4.3.3 结论：数据升维，而非降维

所以，漏斗模型并没有完全消失，它只是从“页面流转漏斗”升级为了“混合逻辑漏斗”。

一个健康的 AI 产品漏斗应该是这样的：

用户提问 -> 意图识别成功（AI指标） -> 检索召回成功（AI指标） -> 生成无幻觉（AI指标） -> 用户点击付费/留存（传统指标）。

传统数据通过“用脚投票”（留存/付费）告诉我们业务的健康度； AI 数据通过“用嘴投票”（Prompt/情绪）告诉我们产品的聪明度**。

只有当“聪明度”真正转化为“健康度”时，一个 AI 产品才算完成了商业闭环。

第五章：AIPM 的实战工具箱

工欲善其事，必先利其器。告别了 Mixpanel 和 Google Analytics，AIPM 需要一套新的军火库。以下是我个人高频使用的工具栈（截至发文），有更好用的tool也期望大家能分享出来，一起进步：

5.1 低代码数据处理神器

飞书多维表格 (Feishu Base)：

用途：别只把它当成在线 Excel 用。利用它的核心杀器—— “AI 字段” 。

场景：当你需要对过去一周的 1000 条用户差评进行归类时，不需要写代码。直接把日志导入表格，新建一个 AI 字段，输入 Prompt：“请分析这句差评的原因（幻觉/拒答/态度差）”。

价值：它是实现前文提到的 “意图聚类”和“轻量级 Auto-Eval” 门槛最低的工具。无需任何开发介入，PM 自己 5 分钟就能搞定批量打标。

5.2 数据清洗与分析助手

Trae (AI IDE)：

建议：彻底放下对代码的恐惧。你不需要成为工程师，你只需要会用 Trae 这样的 AI 编程助手。

用途：处理复杂的 CSV 数据清洗、计算 SRR 指标、绘制热力图。

价值：你不再需要死记硬背 Pandas 语法。你只需要把 CSV 文件拖进去，然后在对话框里用中文说：“帮我读取这个文件，剔除掉少于 3 轮的对话，计算每日的 SRR 指标，并画一个折线图。”

它不是 Excel，它是那个随叫随到的“数据分析实习生”。

5.3 逻辑编排与架构工具

LangChain：

建议：把它当作你的 “动态 PRD”编辑器。

用途：当你需要设计一个复杂的任务（比如“先搜索天气，再根据天气推荐穿搭，最后生成淘宝链接”）时，别只在文档里写文字描述。

价值：借助 Trae，你可以试着用 LangChain 的 Python 代码把这个 “链条 (Chain)” 拼起来。

核心意义：它能强迫你用“模块化”的思维去思考产品逻辑——哪里需要 RAG？哪里需要 Memory（记忆）？哪里需要 Tool（工具）？当你能把 LangChain 的逻辑跑通时，你的 PRD 就再也不会被研发怼“逻辑无法实现”了。

5.4 模型观测与评估工具

LangSmith：

用途：这是 AIPM 的 CT 扫描仪。它可以记录每一次对话的完整链路（Input -> Retrieve -> Generate）。

价值：它可以让你像看慢动作回放一样，看清 AI 是在哪一步“发疯”的。当你做 Bad Case 复盘时，它是神器。

结语：别做看着仪表盘坠机的飞行员

写到这里，已经接近尾声。我们从一个“被数据欺骗”的深夜故事开始，拆解了漏斗模型的失效，建立了 SRR、意图聚类、Auto-Eval 的三层洋葱模型，最后探讨了 AIPM 的职业价值。

如果你问我，做 AI 产品经理的经历，最大的感悟是什么？我会说：是对“不确定性”的敬畏与驾驭

在确定性的软件时代，我们可以靠“抄作业”、靠“最佳实践”、靠“漏斗优化”活得很好。但在非确定性的 AI 时代，没有标准答案。每一个 Prompt 的改动，都可能引发蝴蝶效应。

所以，请不要再只盯着那些虚荣的 PV/UV 指标了。那只是仪表盘上的数字。如果仪表盘显示飞行高度正常，但窗外已经是崇山峻岭，你该相信谁？

去相信“黑匣子”里的声音。 去阅读那一条条鲜活的、破碎的、甚至带着愤怒的用户日志。去建立你的 Evaluation 体系，去训练你的 Intent 聚类模型。

最好的 AI 产品经理，永远是那个最懂如何与数据“对话”的人。

愿你在 AI 的无人区里，手握数据微光，找到通往人心的路。

本文由 @智品趣谈原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

浩思AI

分享ai相关

6篇作品 10849总阅读量

10-23837 浏览

10-172101 浏览

01-206142 浏览

11-121649 浏览

读《俞军产品方法论》之思考：关于效用与边际

08-281679 浏览

目前还没评论，等你发挥！