AI 产品经理最该花精力的事情
AI 产品经理的日常,不在 PRD 里,也不在原型图上,而在一场场“没有标准答案”的效果评估中。从 60 分到 100 分的跃迁,靠的不是炫技,而是用系统性评估把 AI 的“模糊正确”变成“可靠好用”。这是一份关于如何科学“考 AI”的实战指南。

很多刚转行或者想转行做 AI 产品经理的朋友,经常问我同一个问题:做 AI 产品,是不是每天都在研究怎么写出惊艳的 PRD,或者是跟 UI 抠原型的交互细节?
其实真不是。
对于 AI 产品经理来说,花时间最多的事情,往往既不是写 PRD,也不是画原型,而是一件听起来特别枯燥、但又特别要命的事儿,AI 产品效果评估。
咱们得承认,现在调个接口把 AI 产品搭建起来,太容易了。大模型能力摆在那,只要路子对,做到 60 分是分分钟的事。 但是,想让 AI 产品从「能用」变成「好用」,是 60 分到 100 分的区别。这中间差的这 40 分,你没法靠画原型画出来,全得靠你在泥坑里打滚,不断地对产品进行效果评估和调优。
为什么说这事儿最耗费精力?
评估这事儿,听着简单,不就是看看 AI 答得对不对吗? 嗯,还真没那么简单。
首先,因为没有标准答案。
以前做传统软件,按钮点击跳转正不正常,那是 0 和 1 的事,非黑即白。 但 AI 不一样。特别是在文案生成、陪伴聊天这种主观性特别强的场景里,什么是好的回答? 一句文案,你觉得「太罗嗦」,开发觉得「挺详细」,老板觉得「没情感」。 如果不花大把时间去定义评估标准,大家就只能在会上吵架,谁嗓门大谁有理。
其次,最可怕的是:按下葫芦浮起瓢。
咱们肯定都遇到过这种崩溃瞬间:你为了修某个 Bad Case(坏案例),专门去调了 Prompt 或者改了知识库。结果一上线,那个 Bad Case 是修好了,但原本那几个回答得特别完美的 Case,突然就开始胡说八道了。 所以,那种头痛医头的零敲碎打根本行不通,必须得做系统性的评估。
那这块硬骨头,到底该怎么啃?
评估不易,但想做出一款拿得出手的产品,这又是必须要过的坎。结合这段时间的踩坑经验,我觉得大概可以分三步走:
第一,建立评估数据集
你得建立一个高质量的评估数据集。 这活儿全是脏活累活。你不能弄几个数据糊弄事儿。你的数据覆盖度得够。
简单的送分题要有;
复杂的逻辑推理题要有;
甚至用户没事找事的超纲题也得有。
评估集的数据量如果不厚实,你的评估结果就是自欺欺人。
第二,确定评估方式
用机器打分: 比如让 GPT-5 去给你的小模型打分。这招快,成本相对低,适合快速迭代看趋势。
人工评分: 这是最准的,但也最贵、最慢。
你得在成本和效果之间找个平衡。如果是上线前的关键版本,那我建议还得是人工来看一眼心里才踏实。
第三,归因分析
分数跑出来了,比如准确率只有 75%,然后呢? 评估的终点不是那个分数,而是归因。 我们要通过分析那些 Bad Case,把脉把出来:
这是召回的问题?
还是重排序的问题?
还是大模型生成的问题?
只有把原因定位到这么细的颗粒度,开发兄弟们才知道该怎么修。
其实说白了,评估就是给 AI 模型的一场模拟考试。
如果你不做系统性的评估,每次仅用少量数据测试效果,就是在赌博。 你没法发现真正的问题在哪,更别提解决问题的优先级了。
本文由人人都是产品经理作者【产品经理伯庸】,微信公众号:【AI文如刀】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益




