Eval 正在取代 PRD?产品经理的 Eval 入门到落地指南
AI时代的PM核心竞争力正在被重新定义——Eval(评估体系)成为产品经理的新战场。本文深度整合OpenAI、Anthropic、Meta等顶尖AI公司的最佳实践,揭秘如何构建有效的AI评估系统,从Dataset设计到三种评分器的选择策略,手把手教你将模糊的产品需求转化为可量化的质量指标。

OpenAI 的 CPO Kevin Weil 和 Anthropic 的 CPO Mike Krieger,两家最顶尖 AI 公司的产品负责人,说过几乎一模一样的话:写 Eval 是 AI 时代 PM 最重要的能力。
作为一个技术背景有限的产品经理,我的第一反应是三个问题:Eval 到底是什么?别人是怎么做的?轮到我的 AI 项目,该怎么从零开始建?
在找答案的过程中,我读了不少材料,其中几份质量很高,值得单独拎出来说:
Anthropic 今年 1 月发了一篇《Demystifying Evals for AI Agents》,可能是目前关于 AI Agent 评测最完整的一份工程实践指南。里面不光有方法论,还有大量他们在 Claude Code 等产品上踩过的真实坑。
Meta 的 PM Daniel McKinnon 写了一篇《Show, Don’t Tell》,从 Llama 团队内部的视角讲了一个 PM 怎么动手写 Eval,非常接地气。他有一句话让我印象很深:别给建模团队发 PRD 了,直接给他们一个 Eval。
Braintrust 连发了两篇——《Evals Are the New PRD》和《Evals for PMs》,把”Eval 取代 PRD”这件事讲得很系统,还给出了一个 PM 可以直接参考的每周工作节奏。
Hamel Husain 教过 700 多名工程师和 PM 做 Eval,他把学员们问得最多的问题整理成了一份 FAQ,很多观点很犀利——比如”如果你的 Eval 通过率 100%,说明你的 Eval 太简单了”。
此外还参考了 OpenAI 的官方评测文档和 arXiv 上关于 Agent-as-Judge 的论文。
我把这些材料里和产品经理最相关的部分提炼了出来,按照一个刚接触 Eval 的 PM 会自然产生的问题串起来,写成了这篇文章。全文围绕十个问题展开:
- Eval 是什么?
- 这事跟 PM 有什么关系?
- 一个 Eval 由什么组成?
- 三种评分器怎么选?
- 拿到一个 AI 产品,怎么从 0 到 1 建Eval?
- Eval 建好了,然后呢?
- 不同类型的 AI 产品,Eval 有什么不同?
- AI 每次结果都不一样,Eval 分数还有意义吗?
- 有哪些常见的坑?
- Eval 除了保质量,还能干嘛?
可以说这篇文章综合了 Anthropic、OpenAI、Meta、Braintrust、Hamel Husain 等多方最佳实践。文中每一个具体的观点、案例和建议,都标注了来自哪份材料,方便你去看原文。所有参考来源的链接放在了文末。
第一个问题:Eval 是什么?
Eval,全称 Evaluation,说白了就是给 AI 出考试题,然后自动阅卷。
你准备一组输入(模拟用户会怎么问、怎么操作),设好判断标准(什么样的回答算好),把输入丢给 AI,拿输出和标准对一下,出个分。这件事本身并不复杂。复杂的是怎么出好题、怎么定好标准、怎么让这套系统持续运转起来。
为什么需要这个东西?因为 AI 产品和传统软件有一个根本区别。
传统软件的逻辑是确定的。你写了一个按钮,点一下就提交表单,每次都一样。你可以写一条测试:”点了提交,表单发出去了没?”通过就是通过,失败就是失败。
AI 不是这样。同一个输入,你今天问一遍和明天问一遍,答案可能不一样。”质量好不好”这件事是主观的,边缘情况多到数不清。传统那套”手动检查几个 case”的方式,在 AI 产品面前就像拿渔网接水——漏得一塌糊涂。
所以你需要一套能自动跑、能反复跑、能覆盖几百个场景的测试系统。这就是 Eval。
第二个问题:这事跟 PM 有什么关系?
OpenAI 的 CPO Kevin Weil 和 Anthropic 的 CPO Mike Krieger,两家最顶尖 AI 公司的产品负责人,说过几乎一模一样的话:写 Eval 是 AI 时代 PM 最重要的能力。
为什么是 PM 的事,不是工程师的事?
因为 Eval 的核心不是技术实现,而是定义”什么算好”——这是一个产品判断。你是那个最清楚用户在乎什么、哪些边缘情况重要、什么质量可以接受的人。工程师能帮你搭 Eval 的基础设施,但”出什么题、怎么评分”这件事,应该由 PM 来定。
Meta 的 PM Daniel McKinnon 说得很直接:当合作团队想让 Llama 做某件事,他的回复是”别给我发 PRD 了,直接给我一个 Eval。”因为 Eval 本身就是最精确的需求描述——它定义了什么算好、什么算不好,而且可以立刻跑,跑完就知道做到了没有(来源:meta产品经理Daniel D. McKinnon的博客文章)。
传统的产品开发流程是:发现问题 → 写 PRD → 出设计 → 排开发 → 上线。你在 PRD 里写”模型回复应该简洁有用”——”简洁”到什么程度?”有用”怎么衡量?这句话对工程师来说等于什么都没说。而且模型一更新行为就可能变,你的 PRD 还没改呢,产品已经不一样了。
Braintrust 把 AI 产品的新流程总结成(来源:Braintrust):
发现问题 → 写 Eval 来定义”好”的标准 → 团队针对 Eval 做优化 → 上线。
你给工程师的指令从”请把这个做好”变成了”请让这个分数上去”。
PRD 写完就躺在文档里落灰了。Eval 可以每次代码提交都自动跑一遍。一个活的、持续运行的质量标准,肯定比一份落灰的文档有用。
第三个问题:一个 Eval 由什么组成?
搞清楚 Eval 的三个组件,是 PM 做这件事的起点。
1. Dataset(数据集)—— “考试题”
你要测试 AI 的那组输入。需要覆盖三类:你的产品绝对不能搞砸的核心场景、不常见但踩到就出大事的边缘情况、你已经知道 AI 犯过错的地方。
很多人觉得得准备几百道题才能开始。不用。Anthropic 说 20-50 道就够起步了(来源)。Hamel Husain 教过 700 多个工程师和 PM 做 Eval,他的建议更直接:找一个最懂你用户的人,花 30 分钟看 20-50 条 AI 的真实输出,标好哪条行、哪条不行——这就是你的最小起步(来源:Anthropic)。
2. Task(任务)—— “考试规则”
这个词在 Eval 的语境里不是指”做一件事”,而是指“这道题怎么考”——用哪个模型、用什么 Prompt(提示词)、参数怎么设、要不要调用外部工具。Task 定义的是从”输入进去”到”输出出来”的整个执行过程。
如果 Dataset 是试卷上的题目,Task 就是”这次考试的规则”——开卷还是闭卷、能不能用计算器、考多长时间。
PM 不需要自己写代码搭 Task。但你得知道当前 Task 里用的是什么模型、Prompt 是怎么写的,并且能上手改改 Prompt 的措辞——这往往是影响产品质量最直接的变量。
3. Scorer(评分器)—— “阅卷标准”
定义”怎么判断好坏”。这是 PM 在 Eval 里最核心的活儿。
最重要的原则:”好”不是一个整体,它是好几个维度拼起来的。每个维度要单独打分。
比如你做了一个 AI 客服。一条”好”的回复需要同时做到:回答准确、态度有温度、不啰嗦、符合公司规定。如果你把这四件事揉成一个总分,就很容易出现一种荒谬的结果:语气优化上去了,但准确率掉下来了,你还不知道。所以每个维度一个 Scorer,各管各的(来源:Braintrust)。
那 Scorer 有哪几种?这就引出了下一个问题。
第四个问题:谁来”阅卷”?三种 Scorer 怎么选?
Eval 里有三种 Scorer,搞明白它们各自擅长什么、什么时候该用哪种,是 PM 的基本功。
代码评分器(Code-based Scorer):非黑即白
最简单的一种。用确定性的代码逻辑来判。回复里有没有包含某个关键词?长度超没超限?生成的代码能不能跑?数据库里是不是真的多了一条记录?
好处是快、便宜、结果稳定。坏处是死板——AI 如果用了你没想到的方式把事情做对了,它可能会误判成”错”。
Anthropic 的建议是:凡是能用代码判的场景,优先用代码判。(来源:Anthropic)
AI 评分器(LLM-as-Judge):让另一个 AI 来打分
你先写一份评分标准(Rubric),然后让另一个 AI 按标准来给被测 AI 的输出打分。适合那些代码没法判的模糊场景——比如回复有没有同理心、语气是否专业、是不是在胡编乱造。
好处是灵活,能处理开放式的场景,还能大批量跑。坏处是每次结果可能不完全一样(毕竟判官本身也是 AI),而且需要定期和人类专家的判断做校对。
Anthropic 提了几个实操细节(来源:Anthropic):
一,给 AI 阅卷老师一个”不确定”的选项。如果它信息不够,允许它说”我判断不了”,别让它硬凑一个分数出来。
二,每个维度用单独一个 AI 来打分,别让一个 AI 同时判所有维度。你让一个人同时改数学和作文,质量肯定不如分开改。
三,定期校准。光让 AI 打分不管不行,隔段时间要拿人类专家的判断来对一下,看 AI 的打分有没有跑偏。
人类评分器(Human Grader):金标准,但也最坑
让真人来审——领域专家、训练过的标注员。质量当然最靠谱,但贵、慢,而且有一个大部分人都不知道的坑。
Meta 的 PM Daniel McKinnon 讲过一个很反直觉的数学问题(来源:meta产品经理Daniel D. McKinnon的博客文章):
你安排三个标注员做一道二选一的题。结果两个人选了 A,一个选了 B。你可能觉得 66% 一致,还行。实际上不是。
你得看每一对标注员之间是不是一致:
- 1 和 2:都选了 A,一致 ✓
- 1 和 3:一个 A 一个 B,不一致 ✗
- 2 和 3:一个 A 一个 B,不一致 ✗
三对里只有一对一致,实际一致率是 33%。而如果纯靠蒙,随机一致率都有 50%。你的 33% 甚至还不如瞎猜。
McKinnon 的结论是:大部分人严重高估了人类评测的可靠性。如果你要做人类评测,判断标准必须写到极其精确以确保 Inter-annotator Agreement(标注员间一致性),否则等于白做。
小结:三种 Scorer 怎么组合
Anthropic 总结成一句话:能用代码判的用代码,需要灵活性时用 AI,人类只用于验证和校准。
Hamel Husain 还有一个补充建议:用通过/不通过的二分法,别用 1-5 分。1-5 分制下不同人对”3 分”和”4 分”的理解差距太大,噪音太多。二分法反而逼着你把”什么算过”定义清楚。
第五个问题:拿到一个 AI 产品,怎么从 0 到 1 建 Eval?
概念讲完了。现在假设你是一个 PM,面前有一个 AI 产品——可能是个客服机器人、可能是个写作助手、可能是个代码生成工具——你需要从零开始给它建 Eval。怎么走?
以下步骤综合了 Anthropic、Braintrust 和 Hamel Husain 的建议。
第一步:别等”准备好”,现在就开始
最常见的借口是”我的 Dataset 还没准备好”。别等了。
Anthropic 的原话:Eval 拖得越久越难建。早期阶段产品需求天然就能转化成测试题,但等你的系统已经在线上跑了很久,再回头补 Eval,就等于要从一个活的系统反向推导”到底什么算成功”——这比从头建难得多(来源:Anthropic)。
Hamel Husain 的建议更极端:先花 30 分钟手动看 20-50 个 AI 输出,用一个最懂你用户的人作为质量裁判——他管这个人叫”Benevolent Dictator(仁慈的独裁者)”。这就是你的最小可行 Eval(来源)。
第二步:把你已经在手动干的事情变成 Eval
你每次发版之前,是不是都会手动试几个 case 看看效果?把这些 case 写下来,就是你的第一批 Dataset。
如果产品已经在跑了,去翻 bug 记录和客服工单。用户真实报过的问题是最好的 Eval 素材。按影响面从大到小排个序就行。
第三步:把”好用”拆成几个可以打分的信号
来看一个具体例子。
假设你在做一个功能:根据烹饪视频自动生成食谱。需求文档写着”生成的食谱应该准确好用”。但”准确好用”怎么衡量?
你需要把它拆成几个具体的、可以打分的信号(这个例子来自 Braintrust 和 McKinnon 的文章):
信号一:格式对不对? 食材应该放前面,步骤放后面。→ 可以让一个 LLM-as-Judge 拿着”正确格式”的示例来对比打分。
信号二:视频里提到的食材,食谱里是不是都有? → 先用语音识别把视频里的食材提出来,然后做个字符串匹配。这是纯 Code-based Scorer 能搞定的事。
信号三:步骤写得够不够简短好读? → 可以直接统计每句话的字数(Code-based),也可以让 LLM-as-Judge 参考好写法和差写法来对比评分。
三个信号,三个 Scorer,分别打分。你不再跟工程师说”把食谱做好一点”,而是说”让这三个分数往上走”。
这就是 PM 在 Eval 里最核心的工作:把模糊的产品需求翻译成具体的、可衡量的评分维度。
第四步:写好题目——别有歧义
Anthropic 总结了一条判断标准:一道好的 Eval 题,应该让两个领域专家分别看完后,独立给出一样的通过/失败判断。如果两个人看完都不确定怎么打分,问题出在题目身上(来源)。
他们举了一个真实教训:审查 Terminal-Bench(一个编程基准测试)时发现,有一道题要求 AI 写一个脚本,但没指定文件存在哪。而 Scorer 默认脚本在某个特定路径下。结果 AI 脚本写对了,但因为放的位置不对被判失败——这不是 AI 的错,是题出得有漏洞。
一个实用的验证方法:给每道题写一个你知道一定对的”标准答案”(Reference Solution)。如果标准答案都过不了你自己的 Scorer,那是 Scorer 有 bug。
他们在实操中还遇到过更离谱的事:Claude Opus 4.5 在一个叫 CORE-Bench 的评测里一开始只得了 42 分。后来一个 Anthropic 的研究员去细查,发现一堆问题——Scorer 太死板(模型回答 “96.12” 但 Scorer 要求精确到 “96.124991…” 才算对)、有些题意思模糊、还有些随机任务根本没法精确复现。把这些 bug 修完之后,分数从 42% 直接跳到了 95%(来源)。
第五步:正反两面都得测
只测”AI 应该做 X”的场景,会训出一个对什么都做 X 的 AI。
Anthropic 在给 Claude.ai 做搜索功能的 Eval 时吃过这个亏。一开始他们只测了”应该搜索”的场景——比如”今天北京天气怎么样”。结果模型学到了一个错误策略:对几乎所有问题都先搜一下。但像”苹果公司是谁创立的”这种常识题根本不需要搜索,搜了反而更慢。他们后来加上了”不应该搜索”的场景,才在两个方向之间找到平衡。而且这个平衡调了很多轮才调好(来源)。
第六步:评结果,不评过程
很多人的直觉是去检查 AI 有没有按”正确的步骤”做事——比如是不是按顺序调用了工具 A、工具 B、工具 C。
Anthropic 说这条路走不通。AI 经常找到你压根没想到的正确路径,如果你只认自己设计好的那条路,等于在惩罚创造力。更好的做法是只管最终结果对不对(来源)。
打个比方:你点了个外卖,你在乎的是菜对不对、好不好吃、准时不准时。骑手走哪条路,你管不了也不用管。
还有一条相关的原则:允许 Partial Credit(部分得分)。一个 AI 客服正确识别了问题、也验证了用户身份,但最后退款操作没走通——这比一个开口就崩溃的 AI 客服好得多。你的 Scorer 得能体现这种差别,不能简单粗暴只分”过”和”不过”(来源)。
第七步:跑完 Eval 之后,一定要自己读 Transcript
这一条 Anthropic 反复强调,内部把它当作 AI 产品开发的关键技能。
Transcript(追踪记录)是 Eval 一次运行的完整日志——AI 说了什么、调了哪些工具、中间的推理过程是怎样的。每次 Eval 跑完,不要只看分数。你得点开那些失败的 case,看完整的 Transcript。很多时候你会发现,不是 AI 做错了,是你的 Scorer 拒绝了一个实际上挺好的方案。
他们专门投了资源做查看 Transcript 的工具,团队成员定期花时间读。这个习惯帮他们抓到了大量 Scorer 自身的 bug。
Anthropic 内部有一条规矩:在有人读完 Eval 细节和 Transcript 之前,不把任何 Eval 分数当作事实。(来源)
第六个问题:Eval 建好了,然后呢?
到这里,你已经有了第一个可以跑的 Eval。但 Eval 不是一锤子买卖,它真正的价值在于持续运转——Braintrust 把这叫做 Eval Flywheel(评测飞轮)(来源)。
飞轮的四个环节
观察(Observe): 把 AI 在线上的每次输入输出和完整 Transcript 都记下来。
分析(Analyze): 在日志里找规律。什么场景在出问题?哪类用户碰到的问题最多?
转化成 Eval(Evaluate): 发现了失败模式,就加进 Dataset 里。每一次线上翻车,都是一道新的考试题。
改进(Improve): 团队针对更新后的 Eval 做优化,发布改进,回到第一步。
这个循环跑起来之后会越转越快:更多的线上数据养出更好的 Eval,更好的 Eval 逼出更好的 AI,更好的 AI 带来更好的体验,更好的体验带来更多用户和数据。
你的用户其实一直在”出题”,只是你可能没收:一个差评 = 一道新题;用户编辑了 AI 输出 = 一份”标准答案”;用户对着同一个需求换了三种说法问 = 一个你还没覆盖到的场景。
飞轮的四个成熟度等级
零档:靠感觉。 手动试几个、凭直觉判断、等用户来投诉。
一档:有考试但不常考。 有了一些测试题和标准,大版本发布前跑一遍。
二档:自动化。 Eval 接进了 CI/CD 流程,质量不过关的版本自动被拦下来。
三档:飞轮转起来了。 线上的失败案例自动变成新的 Eval 题目,系统每周都在变好。
到第三档的团队,竞争优势是能积累的。大多数团队应该瞄准这一档。
两种 Eval 的区别
飞轮运转的过程中,你会自然遇到两种不同性质的 Eval:
Capability Eval(能力评测)——爬山。 回答的问题是”AI 还能多做好什么新的事“。通过率从低开始,给团队一座要爬的山。比如你的客服 AI 目前只能处理简单退款,你加入了”处理复杂的跨境退货”这种新题——一开始通过率可能只有 30%,随着优化逐步提升。
Regression Eval(回归评测)——守城。 回答的问题是”AI 还能不能做好它以前会做的事“。通过率应该接近 100%,掉了就说明改坏了什么东西。
Anthropic 讲了一个”毕业”机制:当一个 Capability Eval 的通过率稳定在高位之后,它就可以转成 Regression Eval——从”我们能做到吗”变成”我们还能稳定做到吗”(来源)。
但也要注意 Eval Saturation(评测饱和)的问题——通过率到 100% 之后,这个 Eval 对改进就没有指引作用了。代码审查公司 Qodo 一开始对 Opus 4.5 不太满意,因为他们用的 Eval 太简单,没有覆盖到模型在复杂长任务上的进步。后来换了一套更难的 Eval,才看清了实际的提升(来源)。
一个参考的 PM 周节奏
Braintrust 建议了一个 AI PM 可以参考的每周节奏(来源):
周一:翻线上 Transcript,标记 20 条有问题的 AI 输出。
周二:从里面挑出 5 个最典型的,加进 Dataset。
周三:用更新后的 Eval 跑一遍当前方案和候选改进方案,对比。
周四:看结果。好了还是差了?哪个维度提升了,哪个退步了?数据决定发不发。
周五:飞轮又多转了一圈。
第七个问题:不同类型的 AI 产品,Eval 有什么不同?
前面讲的原则是通用的。但不同类型的 AI 产品,Eval 的侧重点确实不一样。Anthropic 按产品类型总结了各自的做法(来源:Anthropic)。
对话类(客服、销售、教练……)
对话类 AI 的特殊之处在于:不光要看”任务做完了没”,还要看”做的过程体验怎么样”。对话本身就是产品的一部分。
所以它的 Eval 通常是多维度的:工单有没有关掉(Code-based Scorer)、对话轮数有没有超过上限(Code-based Scorer)、语气有没有同理心(LLM-as-Judge)、有没有按政策办事(LLM-as-Judge 或 Code-based)。
另外,对话类 Eval 经常需要让一个 AI 来扮演用户。你总不能每次测试都找真人来聊。Anthropic 在对齐审计项目中就是这么做的——用一个 AI 模拟各种用户角色来跟被测 AI 对话。
真实案例:Descript(视频编辑工具) 的 AI 助手从三个角度做 Eval:别搞坏原来的东西、做我让你做的事、做好它。从人工打分起步,逐步迁移到 LLM-as-Judge,再加上定期人类校准。现在维护着两套 Eval——一套管质量基准,一套管 Regression。
真实案例:Bolt.new 是等产品已经有大量用户之后才开始做 Eval 的。三个月内搭好了一套系统:用静态分析给代码打分,用浏览器 Agent 来测试生成的 app 能不能用,用 LLM-as-Judge 来评估指令遵循的质量。
编码类
代码的 Eval 相对省心,因为”对不对”有天然的判断标准:能跑吗?测试过了吗?
行业里最主流的基准测试 SWE-bench Verified 就是这个思路——给 AI 一个真实的 GitHub issue,让它修,修完跑测试,过了就算对。一年之内,前沿模型在这个测试上的得分从 40% 涨到了 80% 以上。
但只看”跑没跑通”不够。你可能还想看代码质量、安全隐患、AI 过程中有没有做多余的事。这些就需要加上 LLM-as-Judge 或静态分析工具。
检索/研究类
这一类最难做 Eval,因为”什么算好”本身就没有唯一答案。做市场调研、做收购尽调、写科学报告——每种”好”的标准都不一样。
Anthropic 推荐组合打分:Groundedness(AI 说的话有没有出处可查)、Coverage(一个好答案该覆盖的要点有没有覆盖全)、Source Quality(用的来源是权威机构还是随便搜到的第一个)。
第八个问题:AI 每次跑出来的结果都不一样,Eval 分数还有意义吗?
这是做 Eval 一定会碰到的问题。同一道题,AI 这次做对了下次可能做错。那分数到底能说明什么?
Anthropic 介绍了两个指标来理解这种波动(来源):
- pass@k:k 次里至少成功一次。 k 越大分越高。适合”只要有一次做对就行”的场景——比如代码生成,只要有一个方案能跑通就够了。
- pass^k:k 次全部成功。 k 越大分越低。适合用户期望每次都靠谱的场景——比如客服,用户不在乎你”平均成功率 90%”,他在乎的是这一次能不能帮到他。
如果你的 AI 单次成功率是 75%,让它连续做对 3 次的概率只有 0.75 × 0.75 × 0.75 ≈ 42%。
两个指标在只试一次的时候是一样的。但随着试验次数增加,它们讲的故事完全相反:一个趋近 100%,一个趋近 0%。选哪个取决于你的场景。
第九个问题:有哪些常见的坑?
在做 Eval 这件事上,踩过坑的人不少。提前知道能省很多时间。
- 别试图衡量”AI 聪不聪明”。 那是 MMLU、GPQA 这些学术基准该干的活。McKinnon 明确说过:创建那种基准是”昂贵的研究级挑战”。你的 Eval 应该只回答一个问题——我的产品在这个具体场景下做得好不好(来源)。
- 别让太多人一起设计 Eval。 人多嘴杂,最后出来的方案一定是折中的、不聚焦的。McKinnon 说他很多 Eval 就是自己一个人写的(来源)。
- 别拿来别人的 Eval 直接用。 McKinnon 反复叮嘱:再有名的开源基准也可能有错。拿到任何 Eval 之后,第一件事是手动抽几个样本看看结果合不合理。他在团队用的很多 Eval 里都发现过错误,而且这种错误从数字上根本看不出来(来源)。
- 别只在发版的时候跑一次。 跑一次的 Eval 不是质量体系,只是一次抽检。模型在变、数据在漂移、新的边缘情况在冒出来。Eval 得持续跑。
- 别盯着分数不看业务。 Hamel Husain 有一个判断标准:如果你的 Eval 通过率 100%,大概率说明 Eval 太简单了。70% 的通过率可能反而更说明问题(来源)。
- 别用脏环境跑 Eval。 Anthropic 发现过 Claude 在 Eval 里偷看上一轮试验残留的 git 记录来”作弊”的情况。每次跑试验必须从干净的环境开始,否则结果不可信(来源)。
第十个问题:Eval 除了保质量,还能干嘛?
很多团队做了 Eval 之后发现,它的价值远不止”确保质量”。
- 模型切换变快了。 每隔一两个月就有更强的模型出来。没有 Eval 的团队要花好几周手动测试。有 Eval 的团队跑一遍就知道新模型哪些方面更强、哪些退步了,几天就能完成切换。Anthropic 说过,有 Eval 的竞争对手可以”在几天内确定新模型优势、调整 Prompt 并完成升级”(来源)。
- 团队认知对齐了。 同一份产品文档,两个工程师可能对”边缘情况怎么处理”理解完全不同。Eval 直接给出答案,消灭歧义。
- 产品和研发之间有了共同语言。 Anthropic 的原话是 Eval 可以成为”产品和研究团队之间最高带宽的沟通渠道”——它定义了研究者可以优化的具体指标,比任何 PRD 都精确(来源)。
- 更多人可以参与改进 AI。 Anthropic 说”最接近用户和产品需求的人最适合定义成功标准”。PM、客户成功、甚至销售都可以贡献 Eval 用例。让他们参与进来——更好的做法是主动给他们工具和权限(来源)。
最后
如果你今天只能做一件事,那就是:选你产品里的一个 AI 功能,找 10 条真实的用户输入,自己判一下 AI 的回答哪条好、哪条不好。
McKinnon 的原话是:做了比完美更重要。你的第一个 Eval 可以很小、甚至是一次性的,只要它能帮你判断模型是不是在解决用户的问题就行(来源)。
Eval 不是什么高深的技术活,它是一种思维方式的转变:从”我觉得 AI 做得不错”变成”我有数据证明 AI 做得不错”。越早完成这个转变越好。
参考来源
- Anthropic: Demystifying Evals for AI Agents
- OpenAI: Evaluation Best Practices
- OpenAI Cookbook: Getting Started with OpenAI Evals
- Hamel Husain: LLM Evals – Everything You Need to Know
- Braintrust: Evals Are the New PRD
- Braintrust: Evals for PMs
- Daniel McKinnon (Meta PM): Show, Don’t Tell
- arXiv: Agent-as-Judge
本文由 @游瑶的产品笔记 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自作者提供
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!

起点课堂会员权益




