别只会写PRD了：AI产品经理真正该补的是评测闭环

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

别只会写PRD了：AI产品经理真正该补的是评测闭环

Keating

2026-05-11

0 评论 235 浏览 2 收藏

15 分钟

很多传统产品经理转AI产品时，第一反应还是写需求、画流程、推开发。但AI产品上线后最容易翻车的地方，往往不是“有没有功能”，而是“效果到底有没有变好”。我做金融投研Agent项目后，一个很深的感受是：AI产品经理一定要会搭评测闭环，否则你根本不知道问题出在模型、提示词、检索召回，还是Agent链路。

我以前也容易把AI产品当成“传统产品 + 大模型能力”来理解。

传统产品里，产品经理把需求说清楚，PRD写完整，交互流程画明白，再配合开发上线，后面看用户反馈、数据埋点、A/B测试，基本就能跑起来。

但AI产品不太一样。

你写完PRD，只是把“要做什么”说清楚了；真正难的是上线后怎么判断“做得好不好”。

同一个需求，大模型可能今天答得好，明天因为prompt改了一句就变差；同一个知识库，检索召回可能在普通问题上很好，但一遇到边界问题就漏；同一个Agent链路，单步工具都没问题，串起来却可能卡在意图识别、工具调用、最终总结任何一个环节。

所以AI产品经理不能只会写PRD，还要会设计评测体系。

说直白点：PRD决定产品能不能被开发出来，评测体系决定产品能不能持续变好。

第一个误区：把“用户反馈”当成唯一验证方式

很多人做传统产品时，习惯上线后看用户反馈。

用户觉得好不好用？有没有投诉？转化率有没有涨？留存有没有变好？这些当然重要。

但AI产品如果只等用户反馈，问题会来得太晚。

因为AI能力的错误经常是“局部坏掉”的。

比如一个RAG问答产品，80%的常规问题都答得不错，但偏偏在某类专业问题上召回不到原文；比如一个Agent系统，大多数单轮问题能处理，但一遇到复合query就把意图拆错；再比如一个金融投研助手，事件解读看起来很顺，但最后总结节点引用的不是原文级数据，而是模型加工过的中间内容。

这些问题，用户不一定能准确描述。

用户只会说：“感觉不准”“答得怪怪的”“不太敢信”。

但产品经理不能停在这里。

你要能继续往下拆：到底是不准、不全、不相关、不合规，还是响应太慢？

我做金融投研多智能体矩阵时，就遇到过类似问题。早期十多个意图看起来都合理，但放到真实query里会互相打架。后来我们把大量query摊开看，才发现问题不在用户表达，而在意图体系本身拆得太细、边界不清。

如果只看用户反馈，很可能最后只得到一句“这个Agent不好用”。

但如果有评测集和指标体系，你就能知道：是哪类query误触发，哪条链路不稳定，哪个Agent输出质量下降。

这就是评测的价值：让问题可量化。

第二个误区：只看业务指标，不看AI能力指标

传统产品常见指标大家都熟：PV、UV、DAU、MAU、留存率、转化率、付费率、NPS、满意度。

这些指标仍然有用，但不够。

AI产品还要看一层“能力指标”。

比如：

意图识别准确率；
回答相关性；
任务完成率；
多轮对话完成率；
幻觉率；
转人工率；
AIGC采纳率；
响应时间；
检索召回率；
工具调用成功率。

这些指标不是为了让报表更复杂，而是为了定位问题。

举个例子，一个AI客服产品留存下降了，传统产品经理可能会去看入口、交互、文案、用户路径。但AI产品经理还要继续问：

是用户问题没有被识别出来？
是识别出来了但知识库没召回？
是召回了但大模型总结错了？
是答案对了但响应太慢？
是单轮能答，多轮就断？

如果你没有能力指标，最后所有问题都会被归因成“模型不行”。

这其实是很粗糙的。

我在金融投研Agent项目里最明显的感受就是：AI产品的效率提升，不一定只来自模型能力，也来自产品结构的减法。我们把十多个意图收敛成2类需求范式，把链路固定成4条标准执行路径，系统就不用在一堆分支里来回犹豫。后面响应时间从10几秒压到7秒内，关键问答准确率做到约95%，这里面既有技术优化，也有产品结构收敛带来的收益。

所以AI产品指标体系不能只盯业务结果，还要能拆到能力层。

第三个误区：评测集随便凑一批问题就完事

很多团队说自己有评测集，其实只是凑了一批常见问题。

这不够。

评测集本质上是给AI产品出卷子。卷子出得不对，分数再高也没意义。

我比较推荐的评测集来源是四类：

真实用户日志一定要占大头，因为它最接近真实使用场景。用户怎么问，系统就应该怎么被测试，而不是只用产品经理脑补出来的“标准问法”。

历史错例也很重要。AI产品迭代最怕什么？最怕上一个版本刚修好的问题，下一个版本又冒出来。所以历史错例应该进入回归测试，每次版本更新都要重新跑。

边界样本是专门测系统底线的，比如模糊意图、复合问题、超长输入、无工具支撑的问题、敏感表达、合规风险场景。

AI生成样本可以用，但只能做冷启动补充，不能完全信任。因为AI生成的问题往往太规整，和真实用户的混乱表达不是一回事。

说到底，评测集不是为了证明系统很强，而是为了尽早暴露系统哪里弱。

第四个误区：只打分，不归因

很多评测报告最常见的问题是：有分数，没结论；有结论，没归因。

比如准确率85%，相关性90%，平均响应时间7秒。

看起来很完整，但产品经理拿到后还是不知道下一步该改什么。

因为评测真正有价值的地方，不是告诉你“分数是多少”，而是告诉你“为什么扣分”。

一个AI产品的badcase，大概率会落到这几类原因里：

模型能力问题：模型本身推理、理解、生成不稳定；
prompt问题：约束不清、角色不明、输出格式不稳；
检索召回问题：RAG没有召回正确知识块，或者召回内容噪声太多；
数据问题：知识库过旧、清洗不干净、分块不合理；
Agent链路问题：意图识别错、工具选错、步骤顺序错；
产品边界问题：需求本来就没有工具支撑，却硬让系统回答。

如果不做归因，所有问题最后都会变成一句话：“让算法再优化一下。”

这对算法和工程都不公平，也不利于产品迭代。

产品经理要做的是把问题拆清楚：哪些是模型要调，哪些是prompt要改，哪些是知识库要补，哪些是产品边界要收敛。

在金融投研场景里，这一点尤其关键。比如系统不能为了显得聪明，直接生成无来源的投资观点；如果检索不到原文依据，就应该提示信息不足，而不是强行编一个看起来很专业的答案。

克制有时候不是保守，而是上线能力的一部分。

我现在会用的AI产品评测闭环

如果把这套方法压缩成一个可执行流程，我会用五步：

第一步，定指标。

先说清楚什么叫好。不同AI产品的好不一样：对话助手看准确率、相关性、多轮完成率；RAG产品看召回率、引用准确性、幻觉率；Agent产品看任务完成率、工具调用成功率、链路稳定性；AIGC产品看采纳率、生成质量、编辑成本。

第二步，选方法。

不是所有问题都适合人工评测，也不是所有问题都适合LLM评分。格式校验、字段完整性、响应时间可以用自动脚本；专业度、表达质量、用户满意度适合人工评测或LLM评分；关键合规场景最好人工复核。

第三步，造评测集。

不要只凑常见问题。真实日志、历史错例、边界样本、AI生成样本都要有，而且要按业务场景分层。

第四步，跑评测。

每次版本迭代都要跑同一批核心评测集，保留版本对比。否则你只知道新版本“感觉更好”，不知道到底好在哪里。

第五步，做归因。

评测不是为了给模型打个分，而是为了形成闭环：评测 → 发现问题 → badcase归因 → 反馈算法和工程 → 回归测试。

这一步才是AI产品经理真正该参与的地方。

这件事怎么落到PRD里

很多人会问：评测体系是不是单独写一份文档就行？

我的建议是：可以单独写评测文档，但PRD里也必须提前埋进去。

因为评测不是上线后的补充动作，而是需求设计的一部分。

写AI产品PRD时，除了传统的需求背景、用户场景、功能流程、交互说明，我会额外补四块：

第一，能力边界。

明确这个版本能回答什么，不能回答什么；哪些问题必须兜底，哪些问题不能强答。

第二，效果指标。

不只写业务指标，也要写AI能力指标。比如准确率、召回率、响应时间、工具调用成功率、幻觉率。

第三，评测集设计。

说明评测集来源、覆盖场景、样本分层、历史错例是否进入回归测试。

第四，badcase归因机制。

说明线上问题怎么收集，怎么分类，怎么流转给算法、工程、运营，怎么做回归验证。

这样写PRD，开发和算法才知道你要的不只是“做一个功能”，而是“做一个能被持续验证的系统”。

这也是AI产品和传统产品很不一样的地方。

经验沉淀

1. AI产品不是上线即结束，而是上线后才开始暴露真实问题

传统产品上线后看用户行为，AI产品上线后还要看能力稳定性。因为模型、检索、prompt、Agent链路都可能成为质量波动源。

2. 业务指标告诉你结果，能力指标告诉你原因

留存下降、满意度下降只是结果。意图识别、召回率、幻觉率、工具调用成功率，才是帮你定位问题的抓手。

3. 评测集不要只收集标准问题，要故意收集难题

真实用户不会按标准句式提问。历史错例、边界样本、模糊意图、异常链路，才最能测出系统上线后的抗压能力。

4.产品经理不要把所有问题都甩给算法

有些问题是模型问题，有些是prompt问题，有些是知识库问题，还有些是产品边界设计问题。产品经理必须参与归因，否则迭代会越来越乱。

5. 能被评测的AI能力，才有持续迭代的可能

如果一个能力无法被定义、无法被评测、无法被归因，它就很难被稳定优化。AI产品经理要做的不是迷信模型，而是把模型能力放进可验证的产品闭环里。

结尾

如果说传统产品经理的基本功是“把需求讲清楚”，那AI产品经理的新基本功，就是“把效果评清楚”。

不要只会写PRD，不要只会说模型很强，也不要只等用户反馈来告诉你哪里坏了。

AI产品真正能持续变好，靠的是一套评测闭环：定指标、选方法、造评测集、跑评测、做归因。

最后浓缩成一句话：

AI产品经理的价值，不是把大模型接进产品里，而是让每一次模型输出都能被定义、被评测、被改进。

欢迎评论区交流，如果你也在做AI产品评测、RAG问答或Agent系统，特别想听听你们是怎么搭评测集和归因机制的。

本文由 @Keating 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Keating

要做AI产品超级新秀

5篇作品 6752总阅读量

产品周报246期 | 抖音宣布与腾讯视频达成合作，科大讯飞将于5月6日发布“1+N认知智能大模型”及应用产品

04-144888 浏览

淄博烧烤热下的加盟启示录

04-306926 浏览

硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

06-124620 浏览

推特“姓马”100天：混乱、眼泪与机遇

02-062269 浏览

盘点一下那些虚实结合的文本输入方式

09-042177 浏览

目前还没评论，等你发挥！

产品周报278期 | WPS 正式关闭第三方商业广告，百度云原生数据库 GaiaDB 4.0 发布

12-222282 浏览
B站能否凭借自制内容破局？

06-012253 浏览
上线首年GMV冲刺100亿，抖音超市能硬刚阿里、京东吗？

02-062143 浏览