90% 的 AI产品经理都在做错竞品分析（包括 4 周前的我）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

90% 的 AI产品经理都在做错竞品分析（包括 4 周前的我）

浩子AIPM

2026-05-20

0 评论 668 浏览 3 收藏

15 分钟

当传统竞品分析遇上AI产品，三件套工具集体失灵！一位产品经理通过4周实战踩坑，揭示了SWOT、功能矩阵和六层架构在AI时代的致命缺陷——它们无法量化内容生成质量这个核心差异点。本文完整呈现从认知崩塌到重建的历程，提供3个全新分析框架、一套人机协作分工表，以及避免被反问倒的关键判断法则，为AI时代的产品经理重新定义竞品分析的本质。

连续做了 4 周 AI 竞品分析后，我发现一个反直觉的事实：传统竞品分析里最常用的三件套——SWOT、功能矩阵、六层架构——在 AI 产品身上几乎全部失效。本文复盘我从踩坑到重建框架的全过程，给出 AI 时代竞品分析的 3 个新框架、1 张人 × AI 协作分工表，以及评审时不会被反问倒的关键判断点。

一、起点：我以为我会做竞品分析

4 周前，我接到第一个 AI 竞品分析任务，需求场景是这样的：「对标一款主流 Agent 产品，评估市面上哪些模型适合接入，给出选型建议。」

我自信满满地拿出了多年的肌肉记忆：SWOT 分析、六层架构、功能矩阵图——传统 PM 的三件套，我闭着眼都能写。几天后我交出了一份厚厚的对比报告，自我感觉良好。

评审时被反问的第一句话是：「你这份报告跟分析两个 SaaS 软件有什么区别？」

那一刻我才反应过来：我用错了工具。AI 产品和传统软件的核心差异，根本不在功能多少，而在内容生成质量——而我手里所有的传统竞品分析框架，恰恰都不能量化这一点。

接下来 4 周，我又连续做了几轮 AI 竞品分析，拆解了多款 AI 产品、构建了多套评测集，才慢慢理清楚一件事：

传统竞品分析的 SWOT、功能矩阵、六层架构，在 AI 产品身上几乎全部失效。

这篇文章把这 4 周的认知崩塌和重建，整理成 3 个新框架。如果你也是从传统 PM 转 AI PM，希望你不用再花 4 周才发现这些坑。

二、第 1 个崩塌：功能矩阵图，在 AI 产品身上失效

我踩的坑

第二周，我接到一个任务：对比 4 款头部 AI 产品的「深度研究」功能（为避免具体产品测评嫌疑，下文以竞品 A/B/C/D 代称）。

我做了一张漂亮的功能对比表：

报告交上去之后，评审者皱着眉问我：「那你最后建议接哪个？」

我答不上来——因为打勾打叉的结果是：四个产品大同小异，我看不出谁更适合接入。

问题出在哪

传统功能矩阵图，统计的是「有没有这个功能」。但 AI 产品的核心差异从来不是「功能有没有」——绝大部分头部产品的功能清单都长得像同一张脸——真正的差异在「同一个功能，谁做得更好」。

而「好不好」是一个内容生成质量的问题，不能用 ✅❌ 表达。

我用什么替代

第三周开始，我把功能矩阵图改成了「内容生成质量评测表」。还是那 4 个产品的 Deep Research 功能，但评测维度换成了 5 个量化指标：

我同时构建了一个 30 题的评测集，覆盖新闻时效、金融分析、行业研究、学术综述四种典型场景，跑完之后才出对比结论。

第三周交报告时，评审者很快锁定结论：「这家产品的稳定性和幻觉率明显优于其他三家，可以重点测试接入。」对比之前那张打勾打叉的功能表，决策依据清晰多了。

「PM 视角」

功能矩阵图作为快照工具还是可以用——快速展示「市场上的产品都长什么样」——但作为决策依据它已经失效了。

AI 时代的功能对比，必须升级成质量对比。如果你交上去的竞品报告里没有「评测集 + 打分」，本质上你只是在做信息搬运，没有给决策者任何支撑。

三、第 2 个崩塌：六层架构，在套壳时代失去了信息量

我踩的坑

第二周中段，我尝试用传统的六层架构拆 4 家通用大模型厂商（同样以厂商 A/B/C/D 代称）：

写完这张表，我盯着看了半小时——这表写了等于没写。

六层里有 4 层（商业层、用户层、技术层、模型层）几乎完全相同。剩下的市场层和基础层差异也小到看不出决策价值。

问题出在哪

六层架构是为「成熟软件赛道」设计的——它假设不同产品在每一层都有显著差异，所以横向对比有信息量。

但今天大部分 AI 产品本质上是「同一批底层模型 + 同一批向量数据库 + 同一类 Agent 框架」的不同套壳。技术层和模型层在很多赛道上已经趋同到 90% 以上的雷同度。

继续用六层对比，等于在比较「都用了同一款发动机的五辆车谁更强」——结果只能是没有结果。

我用什么替代

第三周我换成了一个新的拆解方式：四层架构 + Steps to AGI 分级。

四层架构（去掉冗余层）

把市场层和商业层独立出来，作为「立项判断」的前置环节，而不是塞进竞品架构里。

Steps to AGI 分级（先定位竞品阶段）

这是我整个 4 周最大的认知收益。AI 产品的发展可以分成三个阶段：

L1（对话级）：以对话为核心，评测重点是「对话质量」——理解力、上下文记忆、回应自然度
L2（推理级）：能完成多步推理，评测重点是「推理深度」——逻辑链、Long CoT 表现、知识应用
L3（任务级）：自主规划并执行任务，评测重点是「任务完成度」——目标对齐、工具调用、自我修正

不同 L 级的产品，评测重点完全不同。 用 L1 的评测标准去测 L3 的 Agent 产品，约等于用「打字速度」评测一个程序员——驴唇不对马嘴。

「PM 视角」

做 AI 竞品分析前，先问一句：我和竞品都在 L 几？ 这一步省的不只是时间，更是方向性的错误。

我现在的 SOP 是：先用 5 分钟把所有候选竞品按 L1/L2/L3 分类，不在同一级的直接剔除——它们不是真正的竞品，是不同物种。

四、第 3 个崩塌：跑公开榜单，不等于业务效果

我踩的坑

第一周做模型选型时，我列了一张「主流模型公开榜单成绩对照表」——MMLU、GSM8K、HumanEval、HellaSwag……一长串数字看上去专业极了。

结论部分我写道：「根据公开评测，推荐使用综合得分最高的那家模型。」

评审时被反问了一句：「那你在自己的业务场景里试过吗？」

我没试过。我只是把公开榜单的数字搬了过来。

后来在 POC 阶段做对比测试，结果完全反转：公开榜单分数最高的模型，在我们的业务场景下表现反而不如一款分数靠后的模型。原因很简单：榜单测的是通用能力，而真实业务场景往往是公开榜单根本不覆盖的细分领域。

问题出在哪

公开 Benchmark 解决的是「模型在通用能力上的相对位置」，而 AI 产品要解决的是「模型在你的业务场景里好不好用」。

这两件事经常完全无关。MMLU 高分意味着这个模型在多任务学习数据集上表现好，不代表它在你给客户写邮件、给用户做行业推荐、给法务团队审合同上一样靠谱。

我用什么替代

第四周我开始自建评测集，遵循三个原则：

优先采 Bad Case：从真实业务日志里捞翻车记录，AI 生成的样本只能作为补充
场景化拆维度：不同任务定义不同评分卡（推理类看逻辑链，生成类看流畅度，问答类看准确率）
人工筛选不可省：评测集最终一定要人工过一遍，AI 生成的题目大概率有偏差

模型选型不能只看分数，还要看四个维度的平衡：

最强的模型不等于最适合的模型。一款在公开榜单顶级的模型，如果业务场景是高并发、低成本的客服或推荐，选一个综合得分稍低但单价更便宜、时延更短的模型反而更合理。业务越细分，”最强”越不重要，”匹配”越重要。

「PM 视角」

公开榜单是入场券，自建评测集才是护城河。

我现在做模型选型，公开榜单只用来「剔除明显不及格」的模型，最终决策 100% 看自建评测集的结果。这个习惯让我在后续的选型评审上，明显减少了被研发同事用「你这个数据从哪来的」反问的次数。

五、4 周后我用的新框架（一张表说清楚）

把上面三个崩塌和重建总结成一张对照表：

这张表是我贴在工位旁边的「4 周血泪表」。每次接到新的 AI 竞品分析任务，我会先对照一遍，确认自己用的是右边那列。

六、AI × 人在 AI 竞品分析里的协作分工

4 周里我也调整了一件事：我从「自己做完所有竞品分析」转变成「让 AI 做苦力，我做判断」。

但这件事最大的坑是：很多 PM 把判断也外包给 AI 了。AI 给什么结论就用什么结论，结果一上评审就被反问出三个「为什么」。

我现在的协作分工长这样：

「PM 视角」

判断 AI 输出能不能直接用，我有一个简单的「三秒规则」：

如果 AI 给你的结论里，没有任何一句话需要你停下来想 3 秒以上——那这个结论大概率是套话。

真正有用的竞品分析，最终一定会出现「这一点和我的常识相反」的瞬间。如果通篇看下来都是「嗯，对，是这样」，意味着 AI 给的是平均值意见——而平均值不能成为决策依据。

七、结语：竞品分析的本质变了

4 周下来，我对 AI 竞品分析有一个最深的体感：

老竞品分析的本质是回答「我做什么 vs 别人做什么」，而 AI 竞品分析的本质是回答「我能定义什么样的内容质量标准，让自己的评测集成为护城河」。

第一种是功能视角，第二种是质量视角。第一种比的是清单，第二种比的是判断力。

也正因为这个转变，AI PM 和传统 PM 最大的差异不再是「会不会用 AI 工具」，而是「会不会做 AI 评测」——这件事很多 PM 都还没意识到，也是我观察到的、目前 AI PM 求职市场上区分度最高的硬技能之一。

如果你最近也接到 AI 竞品分析任务，给你 3 个我用了 4 周才学到的建议：

第一周别急着写报告，先花 3 天构建你的评测集——评测集的设计深度直接决定后面分析的天花板
不要相信公开榜单，自建场景化评测集是 AI PM 的基本功
不要外包判断，AI 是肌肉，判断是大脑

本文由 @浩子原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

浩子AIPM

野路子产品经理

5篇作品 9146总阅读量

07-243870 浏览

11-084748 浏览

06-064976 浏览

11-305768 浏览

超级吸金的AI女友，AI的潜力究竟有多大？

05-153711 浏览

目前还没评论，等你发挥！

GTM前的核心输出：拆解“产品商业化文档”（1）

02-214627 浏览
硬核科普：从贝叶斯定理到大语言模型，智能写作创业者的探索之路

06-124757 浏览
靠教人如何坐高铁，“打工仔小张”涨粉百万，火上热搜！

02-206835 浏览