优秀的 AI 应用 PM 长啥样?5 种能力和一件被严重低估的事

0 评论 809 浏览 7 收藏 19 分钟

AI时代的PM需要全新能力框架,传统产品方法论正在失效。本文揭示优秀AI应用产品经理必备的五大核心能力:从Model Sense到任务切分艺术,从Eval设计到工程直觉,再到颠覆性产品想象力。更关键的是,作者指出国内PM普遍忽视的致命短板——深度使用顶级产品的实践智慧,这才是拉开差距的真正分水岭。

今天聊一个我最近反复被同行问到的问题——到底什么样的人,才算优秀的 AI 应用产品经理?

这个问题不好答,但又必须答。因为它直接决定了你怎么看自己、怎么招人、怎么练自己的下一步。市面上写「AI PM 能力模型」的文章不少,看完都挺虚的——大词一堆,落不到实处。

今天我把自己的判断老实写一遍。先讲我心里优秀的 AI 应用 PM 长啥样(5 种能力,按稀缺度排序),再讲怎么练(3 个反直觉的建议)。最后会重点展开一件大部分中国 AI PM 都没在认真做的事——这件事,可能是大家拉开差距的真正源头。

01 先想清楚一件事:AI 应用 PM 和传统 PM,是两个物种

很多人没意识到,做 AI 应用的 PM,和做传统软件的 PM,本质上不是同一个工种

传统 PM 的核心能力是「确定性管理」——需求是清楚的,方案是收敛的,做出来就是那样。点了按钮就一定弹窗,提交了表单就一定入库。一切可以画成流程图,QA 跑一遍 case 没问题就上线。

AI 应用 PM 的核心能力是「不确定性下的判断力」——模型能力是流动的(每三个月迭代一次)、用户行为是涌现的(你猜不到他会怎么用)、效果是概率的(同一个 prompt 跑两次输出可能不一样)。

这一条没想清楚,后面所有的能力都会用错地方。

打个比方:传统 PM 像建筑师,图纸画好就照着盖;AI 应用 PM 更像种地的——种子(模型)每年都在变,天气(用户行为)你控制不了,你能做的是搞清楚什么节气该干什么活,以及怎么判断哪一垄长得不好需要补救。

想清楚这一层,下面的能力清单才能对号入座。

02 能力一:Model Sense(对模型能力的体感)

这是 AI PM 最底层的能力,也是最难速成的。

具体说就是:拿到一个需求,你能不能立刻判断「这件事现在的模型做得到 / 做不到 / 勉强能做但不稳定」,而且判断准确率高?

这不是看 benchmark,看 benchmark 没用——benchmark 上 90 分的模型,做你的具体业务可能就是 60 分。Model Sense 是亲手写过几千条 prompt、调过几十个 Agent、踩过 RAG 和 Function Calling 的所有坑之后形成的肌肉记忆。

一个有 Model Sense 的 PM,能区分这两种情况:

  • 「模型不行」—— 真的是当前模型能力的天花板
  • 「我没调对」—— prompt、上下文、任务拆分方式有问题

大部分 PM 在这一关就挂了,他们把模型当成黑盒。结果就是:要么过度承诺(「AI 啥都能干」),要么过度保守(「AI 啥都干不好」)。这两种 PM 都很危险,前者把团队带进坑,后者把机会让给竞品。

怎么练? 没有捷径。每周自己端到端做一个小 demo,从 prompt 到 eval,全部自己上手。不要假手于工程师。一周一个,半年下来你就有手感了。

03 能力二:任务的颗粒度切分

AI 应用做不好,80% 的原因都是任务边界划错了

把一个需要五步推理的任务一把丢给模型,效果一定差;切成五个原子任务串起来,每一步都稳定。这事儿听起来简单,做起来极难——它要求你对业务流程的理解细到工序级别,同时对模型能力的边界清楚到 token 级别

这是 AI PM 区别于传统 PM 的手艺活。传统 PM 画的是用户流程图,AI PM 要画的是「模型能力 × 业务步骤」的二维网格——每一格都要标出可行性、置信度、失败兜底方案。

举个例子:让模型「根据销售通话写一份带行动建议的客户跟进 SOP」,听起来一句话的事,拆开后其实是:

  1. 转写音频
  2. 提取关键信息(客户身份、产品兴趣点、异议、承诺事项)
  3. 判断客户阶段(首访 / 跟进 / 临门一脚)
  4. 匹配对应阶段的话术模板
  5. 生成具体行动项 + 时间点

第 1 步用 ASR 模型,第 2 步可能要拆成两轮 LLM 调用,第 3 步要做规则 + 模型混合判断,第 4 步要查 RAG,第 5 步可能还要加个 review……

不会切的人,做出来的 Agent 就是个看起来能跑、但 30% 的 case 错得离谱的玩具。

怎么练? 拿一个真实业务流程,强迫自己拆到不能再拆,然后逐格评估能力边界。做十个你就有感觉了。

04 能力三:Eval 设计能力

这条最被低估,也是 AI PM 最容易翻车的地方。

传统软件,QA 跑 case 就行,对就是对、错就是错。AI 应用呢?你需要回答这些问题:

  • 这个 Agent 究竟有没有变好?
  • 我加了这条规则,是变好了还是变坏了?
  • 线上 1000 个 case,哪些是模型问题、哪些是 prompt 问题、哪些是数据问题?

怎么定义「做得好」,比「怎么做好」难十倍。

举个反面教材:很多团队上线 AI Agent 之后,靠用户投诉来判断好坏。这就是没有 eval。今天觉得好,明天用户骂街,自己都不知道哪里出了问题。

有 eval 能力的 PM,会做三件事:

  1. 黄金集(golden set):精心挑选的 50-200 条代表性 case,覆盖各种场景和边界
  2. 多维度打分:不光看「对不对」,还要看准确性、完整性、风格、合规性、成本……
  3. 可对比的迭代:每改一版 prompt 或一版模型,全量跑一遍 golden set,分维度对比

有了这三件事,AI 产品才能像传统产品一样可控地迭代。否则你就是在凭感觉做产品——这事儿你愿意干,老板也不愿意接受。

怎么练? 每个功能上线前,强迫自己先写出 20 条 golden set,并且能讲清楚每一条考的是什么能力维度。

05 能力四:反共识的产品形态想象力

这条最玄但最值钱。

GPT 出来三年了,市面上 90% 的「AI 产品」还是把对话框塞进原有 SaaS 里——这就是缺乏想象力。对话框不是 AI 产品的形态,是行业偷懒的形态。

优秀的 AI PM 会先问自己一个问题:如果模型能力是免费且无限的,这个业务应该长什么样? 然后从那个终局倒推今天能做什么。

最经典的反例是 Cursor。它不是「VSCode + ChatGPT」,是重新想象了「写代码」这件事。再看 Devin、Claude Code、Manus,每一个出色的 AI 产品都不是把现有产品 + AI,而是从 AI 能力出发重新想象任务本身

这种产品形态的跃迁,不来自需求调研,来自对终局的想象 + 对当下能力的妥协之间的来回校准。

说白了,需求调研只能告诉你「用户现在用旧产品时哪里痛」,但用户永远说不出「如果有 AI,他应该怎么用」。这部分必须靠 PM 的想象力。

怎么练? 选一个你熟悉的传统软件类目(CRM、客服系统、设计工具、协同文档……),强迫自己写一份「如果今天从零开始做、AI 能力是免费的,它会是什么样」的 spec。不参考任何现有产品。每月一份,写半年你的脑子就被重塑了。

06 能力五:工程系统的直觉

不需要会写生产代码,但必须懂 RAG、向量库、Agent 框架、上下文工程、缓存策略、Token 经济学,懂到能和工程师吵架的程度

为什么?因为 AI 应用的很多产品决策本质上就是工程决策——延迟、成本、稳定性、幻觉率,每一个都会反过来重塑产品形态。

举几个例子:

  • 不懂 KV cache 的 PM 设计出的多轮对话产品,工程师要么做不出来、要么做出来贵得吓人
  • 不懂 embedding 检索原理的 PM 设计出的知识库产品,准确率永远卡在 60% 上不去
  • 不知道流式输出会改变交互节奏的 PM,做出来的 Agent 永远像是在「加载中」

这不是要你成为半个工程师,而是要你和工程师讲同一种语言。 否则你会发现,每次评审你的需求,工程师都用一种「你又来了」的眼神看你。

怎么练? Anthropic、OpenAI、DeepMind 的官方 cookbook 和 blog 全部读一遍。看 Cursor、Devin、Claude Code 的工程访谈。每天关注 AI Engineer 这个圈子的讨论——不是关注大新闻,是关注他们在 debug 什么具体问题。

07 能力都讲完了,再说三个反直觉的成长建议

上面五种能力的具体练法都讲了。但更关键的是 PM 整体的成长姿势。这里给三个反直觉的建议。

第一,少看,多做。

AI 行业内容已经过载了。每天刷推特、看公众号、听播客,看似在学习,实则在消费焦虑。你脑子里塞满了「OpenAI 又发布了什么」「Manus 是不是套壳」「Agent 元年是 2024 还是 2025」……这些信息没有一个是你能用的。

真正长能力的,是亲手做一个端到端的小项目——哪怕是个不上线的玩具,哪怕只服务你自己。一个深度做完的 demo,胜过一百篇综述。

第二,保留一个完全自主的个人项目。

公司的产品有 KPI、有妥协、有历史包袱,练不出最纯粹的判断力。你做某个功能的取舍,未必是从产品角度最优——可能是从老板角度最优、从季度交付角度最优、从工程实施成本角度最优。这都对,但都不长 PM 的「判断力肌肉」。

一个完全自主的小项目——可以是个出海工具、一个内部效率插件、一个自己用的 Agent——是你试错、形成 thesis、长 Model Sense 的最佳土壤。

我自己就一直保留几个个人项目,这些项目对我 PM 能力的滋养,比公司的主项目还大

第三,去 dogfood 顶级产品。

这条最重要。下面单独展开讲——因为我相信,这是大部分中国 AI PM 和顶尖 PM 之间,最大但又最隐蔽的差距来源

08 单独说说:什么叫「dogfood 顶级产品」,以及为什么这件事被严重低估

先解释一下「dogfood」这个词。

它的全称是 eat your own dog food——字面意思是「吃自己家的狗粮」。来源是个传说:八十年代有个狗粮广告,公司高管为了证明产品好,自己当众吃狗粮。后来这个词被硅谷借走了,意思变成:自家做的产品,自己得先用,而且当成主力工具用。

微软早期就是著名的 dogfooding 文化——做 Office 的人自己天天用 Office 写文档;做 Windows 的人自己电脑就跑 Windows beta。

我借用这个词,说的是另一回事:作为 AI PM,你必须把市面上最顶级的 AI 产品,dogfood 到上瘾的程度。

注意,这里有三种状态,差距巨大:

99% 的 PM 停留在第一层。 注册、玩两下、截图、转发文章,自以为「我了解过这个产品」。

只有到了第三层,你才会真正发现:

  • 哦,原来这个产品在第 17 次使用的时候才暴露出某个微妙的设计;
  • 哦,它的某个交互细节为什么必须是那样;
  • 哦,它的某个限制反过来如何塑造了用户行为;
  • 哦,它的工程妥协是怎么变成产品特色的。

举个具体的例子:你只有用 Cursor 写过几千行代码,才会理解它为什么坚持把 AI 嵌在编辑器内而不是做成独立对话框——那是无数次「我得复制代码贴进去再贴出来」的痛之后,做产品的人做出的决定。读访谈是读不出来的。

再举一个:你只有用 Claude Code 跑过几十个真实任务,才会理解 Anthropic 为什么把 CLI 而不是 IDE 作为切入点——那背后是一整套关于「AI 应该融入工程师哪个环节」的思考。

这些判断不读访谈是看不出来的,必须自己用到那个深度。

那为什么这件事在国内 PM 圈被严重低估?我观察下来有三个原因:

  1. 网络门槛——大部分顶级 AI 产品在海外,要解决访问、付费、信用卡的问题
  2. 语言阻力——英文产品用起来累,自然就少用了
  3. 认知阻力——觉得「我看几篇文章 + 看几个 demo 就够了」——这是最致命的

结果就是:我们做出来的 AI 产品,长得都很像。因为我们的 PM 没有真正用过那些长得不一样的、好的、塑造行业方向的产品

举个我自己的反思:我去年有段时间觉得我对 AI Coding 这个方向很懂——读了大量分析文章、看了所有友商发布会、写了好几篇内部分享。直到我把 Cursor 当主力 IDE 用了三个月,才意识到——我之前所谓的「懂」,全是隔靴搔痒。同一个产品,体验过和 dogfood 过,是两个完全不同的认知层级。

09 总结一下

我们总结一下这篇文章的核心要点:

  1. 优秀的 AI 应用 PM,核心能力是「不确定性下的判断力」,和传统 PM 是两个物种;
  2. 五种核心能力按稀缺度排序:Model Sense → 任务颗粒度切分 → Eval 设计 → 产品形态想象力 → 工程系统直觉
  3. 怎么练?少看多做、保留个人项目、Dogfood 顶级产品
  4. Dogfood 不是体验、不是使用,是把它织进日常工作流,用到上瘾——这是国内 PM 圈最大但最隐蔽的差距来源;
  5. 真正的护城河不是「懂 AI」——懂 AI 的人会越来越多——而是「懂业务的同时还懂 AI 能力的边界」。这是个交叉口,站在这个路口的人,未来五年会非常稀缺。

最后说一句心里话:AI 应用 PM 的成长路径,和上一代互联网 PM 真的不一样。上一代靠流程、靠经验、靠对用户的洞察。这一代多了一个维度——对模型能力的体感。这个维度,只能靠手感来积累。没有捷径,没有 PPT 能教,没有培训能速成。

所以最好的练习方法很朴素:每天动手,每天对照顶级产品反思,保留一块完全属于自己的试验田。 就这样持续做两年,你会发现自己已经站在另一个生态位上。

回头看自己过去半年的产品决策——有几个是基于「我对模型能力有体感」做出来的,有几个是基于「友商也这么做」做出来的?这个比例,比任何能力清单都更能说明你现在的位置。

本文由 @姬小光 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!