优秀的 AI 应用 PM 长啥样？5 种能力和一件被严重低估的事

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

优秀的 AI 应用 PM 长啥样？5 种能力和一件被严重低估的事

姬小光

2026-04-29

0 评论 4463 浏览 68 收藏

19 分钟

AI时代的PM需要全新能力框架，传统产品方法论正在失效。本文揭示优秀AI应用产品经理必备的五大核心能力：从Model Sense到任务切分艺术，从Eval设计到工程直觉，再到颠覆性产品想象力。更关键的是，作者指出国内PM普遍忽视的致命短板——深度使用顶级产品的实践智慧，这才是拉开差距的真正分水岭。

今天聊一个我最近反复被同行问到的问题——到底什么样的人，才算优秀的 AI 应用产品经理？

这个问题不好答，但又必须答。因为它直接决定了你怎么看自己、怎么招人、怎么练自己的下一步。市面上写「AI PM 能力模型」的文章不少，看完都挺虚的——大词一堆，落不到实处。

今天我把自己的判断老实写一遍。先讲我心里优秀的 AI 应用 PM 长啥样（5 种能力，按稀缺度排序），再讲怎么练（3 个反直觉的建议）。最后会重点展开一件大部分中国 AI PM 都没在认真做的事——这件事，可能是大家拉开差距的真正源头。

01 先想清楚一件事：AI 应用 PM 和传统 PM，是两个物种

很多人没意识到，做 AI 应用的 PM，和做传统软件的 PM，本质上不是同一个工种。

传统 PM 的核心能力是「确定性管理」——需求是清楚的，方案是收敛的，做出来就是那样。点了按钮就一定弹窗，提交了表单就一定入库。一切可以画成流程图，QA 跑一遍 case 没问题就上线。

AI 应用 PM 的核心能力是「不确定性下的判断力」——模型能力是流动的（每三个月迭代一次）、用户行为是涌现的（你猜不到他会怎么用）、效果是概率的（同一个 prompt 跑两次输出可能不一样）。

这一条没想清楚，后面所有的能力都会用错地方。

打个比方：传统 PM 像建筑师，图纸画好就照着盖；AI 应用 PM 更像种地的——种子（模型）每年都在变，天气（用户行为）你控制不了，你能做的是搞清楚什么节气该干什么活，以及怎么判断哪一垄长得不好需要补救。

想清楚这一层，下面的能力清单才能对号入座。

02 能力一：Model Sense（对模型能力的体感）

这是 AI PM 最底层的能力，也是最难速成的。

具体说就是：拿到一个需求，你能不能立刻判断「这件事现在的模型做得到 / 做不到 / 勉强能做但不稳定」，而且判断准确率高？

这不是看 benchmark，看 benchmark 没用——benchmark 上 90 分的模型，做你的具体业务可能就是 60 分。Model Sense 是亲手写过几千条 prompt、调过几十个 Agent、踩过 RAG 和 Function Calling 的所有坑之后形成的肌肉记忆。

一个有 Model Sense 的 PM，能区分这两种情况：

「模型不行」—— 真的是当前模型能力的天花板
「我没调对」—— prompt、上下文、任务拆分方式有问题

大部分 PM 在这一关就挂了，他们把模型当成黑盒。结果就是：要么过度承诺（「AI 啥都能干」），要么过度保守（「AI 啥都干不好」）。这两种 PM 都很危险，前者把团队带进坑，后者把机会让给竞品。

怎么练？ 没有捷径。每周自己端到端做一个小 demo，从 prompt 到 eval，全部自己上手。不要假手于工程师。一周一个，半年下来你就有手感了。

03 能力二：任务的颗粒度切分

AI 应用做不好，80% 的原因都是任务边界划错了。

把一个需要五步推理的任务一把丢给模型，效果一定差；切成五个原子任务串起来，每一步都稳定。这事儿听起来简单，做起来极难——它要求你对业务流程的理解细到工序级别，同时对模型能力的边界清楚到 token 级别。

这是 AI PM 区别于传统 PM 的手艺活。传统 PM 画的是用户流程图，AI PM 要画的是「模型能力 × 业务步骤」的二维网格——每一格都要标出可行性、置信度、失败兜底方案。

举个例子：让模型「根据销售通话写一份带行动建议的客户跟进 SOP」，听起来一句话的事，拆开后其实是：

转写音频
提取关键信息（客户身份、产品兴趣点、异议、承诺事项）
判断客户阶段（首访 / 跟进 / 临门一脚）
匹配对应阶段的话术模板
生成具体行动项 + 时间点

第 1 步用 ASR 模型，第 2 步可能要拆成两轮 LLM 调用，第 3 步要做规则 + 模型混合判断，第 4 步要查 RAG，第 5 步可能还要加个 review……

不会切的人，做出来的 Agent 就是个看起来能跑、但 30% 的 case 错得离谱的玩具。

怎么练？ 拿一个真实业务流程，强迫自己拆到不能再拆，然后逐格评估能力边界。做十个你就有感觉了。

04 能力三：Eval 设计能力

这条最被低估，也是 AI PM 最容易翻车的地方。

传统软件，QA 跑 case 就行，对就是对、错就是错。AI 应用呢？你需要回答这些问题：

这个 Agent 究竟有没有变好？
我加了这条规则，是变好了还是变坏了？
线上 1000 个 case，哪些是模型问题、哪些是 prompt 问题、哪些是数据问题？

怎么定义「做得好」，比「怎么做好」难十倍。

举个反面教材：很多团队上线 AI Agent 之后，靠用户投诉来判断好坏。这就是没有 eval。今天觉得好，明天用户骂街，自己都不知道哪里出了问题。

有 eval 能力的 PM，会做三件事：

黄金集（golden set）：精心挑选的 50-200 条代表性 case，覆盖各种场景和边界
多维度打分：不光看「对不对」，还要看准确性、完整性、风格、合规性、成本……
可对比的迭代：每改一版 prompt 或一版模型，全量跑一遍 golden set，分维度对比

有了这三件事，AI 产品才能像传统产品一样可控地迭代。否则你就是在凭感觉做产品——这事儿你愿意干，老板也不愿意接受。

怎么练？ 每个功能上线前，强迫自己先写出 20 条 golden set，并且能讲清楚每一条考的是什么能力维度。

05 能力四：反共识的产品形态想象力

这条最玄但最值钱。

GPT 出来三年了，市面上 90% 的「AI 产品」还是把对话框塞进原有 SaaS 里——这就是缺乏想象力。对话框不是 AI 产品的形态，是行业偷懒的形态。

优秀的 AI PM 会先问自己一个问题：如果模型能力是免费且无限的，这个业务应该长什么样？ 然后从那个终局倒推今天能做什么。

最经典的反例是 Cursor。它不是「VSCode + ChatGPT」，是重新想象了「写代码」这件事。再看 Devin、Claude Code、Manus，每一个出色的 AI 产品都不是把现有产品 + AI，而是从 AI 能力出发重新想象任务本身。

这种产品形态的跃迁，不来自需求调研，来自对终局的想象 + 对当下能力的妥协之间的来回校准。

说白了，需求调研只能告诉你「用户现在用旧产品时哪里痛」，但用户永远说不出「如果有 AI，他应该怎么用」。这部分必须靠 PM 的想象力。

怎么练？ 选一个你熟悉的传统软件类目（CRM、客服系统、设计工具、协同文档……），强迫自己写一份「如果今天从零开始做、AI 能力是免费的，它会是什么样」的 spec。不参考任何现有产品。每月一份，写半年你的脑子就被重塑了。

06 能力五：工程系统的直觉

不需要会写生产代码，但必须懂 RAG、向量库、Agent 框架、上下文工程、缓存策略、Token 经济学，懂到能和工程师吵架的程度。

为什么？因为 AI 应用的很多产品决策本质上就是工程决策——延迟、成本、稳定性、幻觉率，每一个都会反过来重塑产品形态。

举几个例子：

不懂 KV cache 的 PM 设计出的多轮对话产品，工程师要么做不出来、要么做出来贵得吓人
不懂 embedding 检索原理的 PM 设计出的知识库产品，准确率永远卡在 60% 上不去
不知道流式输出会改变交互节奏的 PM，做出来的 Agent 永远像是在「加载中」

这不是要你成为半个工程师，而是要你和工程师讲同一种语言。 否则你会发现，每次评审你的需求，工程师都用一种「你又来了」的眼神看你。

怎么练？ Anthropic、OpenAI、DeepMind 的官方 cookbook 和 blog 全部读一遍。看 Cursor、Devin、Claude Code 的工程访谈。每天关注 AI Engineer 这个圈子的讨论——不是关注大新闻，是关注他们在 debug 什么具体问题。

07 能力都讲完了，再说三个反直觉的成长建议

上面五种能力的具体练法都讲了。但更关键的是 PM 整体的成长姿势。这里给三个反直觉的建议。

第一，少看，多做。

AI 行业内容已经过载了。每天刷推特、看公众号、听播客，看似在学习，实则在消费焦虑。你脑子里塞满了「OpenAI 又发布了什么」「Manus 是不是套壳」「Agent 元年是 2024 还是 2025」……这些信息没有一个是你能用的。

真正长能力的，是亲手做一个端到端的小项目——哪怕是个不上线的玩具，哪怕只服务你自己。一个深度做完的 demo，胜过一百篇综述。

第二，保留一个完全自主的个人项目。

公司的产品有 KPI、有妥协、有历史包袱，练不出最纯粹的判断力。你做某个功能的取舍，未必是从产品角度最优——可能是从老板角度最优、从季度交付角度最优、从工程实施成本角度最优。这都对，但都不长 PM 的「判断力肌肉」。

一个完全自主的小项目——可以是个出海工具、一个内部效率插件、一个自己用的 Agent——是你试错、形成 thesis、长 Model Sense 的最佳土壤。

我自己就一直保留几个个人项目，这些项目对我 PM 能力的滋养，比公司的主项目还大。

第三，去 dogfood 顶级产品。

这条最重要。下面单独展开讲——因为我相信，这是大部分中国 AI PM 和顶尖 PM 之间，最大但又最隐蔽的差距来源。

08 单独说说：什么叫「dogfood 顶级产品」，以及为什么这件事被严重低估

先解释一下「dogfood」这个词。

它的全称是 eat your own dog food——字面意思是「吃自己家的狗粮」。来源是个传说：八十年代有个狗粮广告，公司高管为了证明产品好，自己当众吃狗粮。后来这个词被硅谷借走了，意思变成：自家做的产品，自己得先用，而且当成主力工具用。

微软早期就是著名的 dogfooding 文化——做 Office 的人自己天天用 Office 写文档；做 Windows 的人自己电脑就跑 Windows beta。

我借用这个词，说的是另一回事：作为 AI PM，你必须把市面上最顶级的 AI 产品，dogfood 到上瘾的程度。

注意，这里有三种状态，差距巨大：

99% 的 PM 停留在第一层。 注册、玩两下、截图、转发文章，自以为「我了解过这个产品」。

只有到了第三层，你才会真正发现：

哦，原来这个产品在第 17 次使用的时候才暴露出某个微妙的设计；
哦，它的某个交互细节为什么必须是那样；
哦，它的某个限制反过来如何塑造了用户行为；
哦，它的工程妥协是怎么变成产品特色的。

举个具体的例子：你只有用 Cursor 写过几千行代码，才会理解它为什么坚持把 AI 嵌在编辑器内而不是做成独立对话框——那是无数次「我得复制代码贴进去再贴出来」的痛之后，做产品的人做出的决定。读访谈是读不出来的。

再举一个：你只有用 Claude Code 跑过几十个真实任务，才会理解 Anthropic 为什么把 CLI 而不是 IDE 作为切入点——那背后是一整套关于「AI 应该融入工程师哪个环节」的思考。

这些判断不读访谈是看不出来的，必须自己用到那个深度。

那为什么这件事在国内 PM 圈被严重低估？我观察下来有三个原因：

网络门槛——大部分顶级 AI 产品在海外，要解决访问、付费、信用卡的问题
语言阻力——英文产品用起来累，自然就少用了
认知阻力——觉得「我看几篇文章 + 看几个 demo 就够了」——这是最致命的

结果就是：我们做出来的 AI 产品，长得都很像。因为我们的 PM 没有真正用过那些长得不一样的、好的、塑造行业方向的产品。

举个我自己的反思：我去年有段时间觉得我对 AI Coding 这个方向很懂——读了大量分析文章、看了所有友商发布会、写了好几篇内部分享。直到我把 Cursor 当主力 IDE 用了三个月，才意识到——我之前所谓的「懂」，全是隔靴搔痒。同一个产品，体验过和 dogfood 过，是两个完全不同的认知层级。