那个在 AI 立项会上只会点头的产品经理，离被裁不远了

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

那个在 AI 立项会上只会点头的产品经理，离被裁不远了

桃子AI产品

2026-03-23

0 评论 1014 浏览 6 收藏

21 分钟

在AI项目立项会上，当算法团队滔滔不绝地讲解技术方案时，产品经理该如何把握关键判断？本文聚焦企业AI落地的典型场景——RAG系统，拆解产品经理必须亲自把关的六个核心节点，从技术选型到效果评估，揭示那些算法工程师无法替代的业务决策。

一、一个让我有点尴尬的会议

去年我参加过一个AI项目的立项会，算法同学洋洋洒洒讲了一个小时，从向量检索讲到重排序模型，从Embedding方案讲到分块策略。台下的产品经理认真地记着笔记，时不时点头，偶尔问一句”这个方案成本怎么样”。

会后我问了其中一个产品：”你觉得这个方案合理吗？”

他停顿了一下，说：”我觉得应该没问题吧，算法那边说可以。”

这个回答让我有点难受。不是因为他不懂技术，而是因为他放弃了一件本来属于他的事——判断。

这件事让我开始认真想一个问题：在AI项目里，产品经理到底应该干什么？

答案不复杂，但很多人做反了。产品经理不需要会写代码，不需要懂向量数据库的底层实现，但有一件事是无论如何绕不过去的：你必须能在每一个关键节点上，做出有依据的判断。

而那些判断，恰恰藏在技术选型的背后——在那些看起来”算法的事”的决定里。

这篇文章想讨论的，就是其中最典型的一类AI项目：知识库类AI应用，也就是业内常说的RAG系统。它是目前企业AI落地最主流的形态，也是产品经理最容易”点头不表态”的地方。

二、这不是技术题，是产品判断题

在真正进入RAG链路之前，产品经理必须先回答一个更根本的问题：这个场景，是用RAG还是微调？

这个问题不是技术问题，是产品判断题。

先把大模型的结构性痛点说清楚。大模型在训练结束之后，知识就被”固化”了——它不知道训练截止日期之后发生的事，不知道你们公司的内部制度，也不知道某份合同里的具体条款。这三个问题——幻觉、知识过时、没有私有数据——不是模型能力不足，而是架构决定的天花板。你没有办法靠”换一个更聪明的模型”来解决，因为再聪明的模型也不知道你公司明天刚发布的新政策。

既然是架构问题，就需要架构层面的解法。微调和RAG，都是常见的答案，但它们的代价和适用场景差异很大。

微调的逻辑是：把知识”烧进”模型的参数里，让模型在训练阶段就学会特定领域的知识和风格。这个方案的上限很高——如果数据够好、训练够充分，微调后的模型在专业领域的表现可以非常出色。但它的代价也是真实的。GPU训练成本从几百到几万美元不等，人工标注训练数据耗时耗力，训练完还不一定好用，可能要反复迭代。更麻烦的是，知识一旦进了模型的黑盒，就很难追溯——出了问题，你根本不知道是哪条训练数据导致的偏差。而每次业务知识更新，都意味着重新训练一轮，这不是一次性投入，是持续的运营负担。

RAG的逻辑完全不同。它不把知识装进模型，而是在模型旁边放一个”外置硬盘”——知识库。用户提问时，系统先去知识库里检索相关内容，再把检索结果和问题一起交给模型生成答案。知识存在外面，随时可以更新替换；出了问题，可以逐环节排查，是检索没找准还是模型总结跑偏，一目了然；成本可控，迭代周期短。

对于大多数企业应用场景来说，这才是”刚好合适”的选择。

一个产品经理在技术选型上的核心判断原则：不选最好的，选最合适的。 顶配技术方案只有一个结果——超出预算，或者超出团队的维护能力。能在当前成本和资源约束下，达到预期效果的方案，才是正确答案。微调和RAG不是对立的，它们是分工不同的两层：微调管能力（让模型懂行、会说话），RAG管知识（让模型随时能查到最新、最准确的信息）。大厂的终极形态是两者结合，但对于大多数中小公司来说，RAG是更现实、更可控的起点。

三、六个没人替你守的关口

如果你已经确定了走RAG路线，那么真正的考验才刚刚开始。RAG绝不是一个把文档扔进去就能自动产出奇迹的黑盒，它是一条漫长且充满变量的流水线（Pipeline）。在这条链路上，有六个决定成败的”生死关口”，产品经理必须亲自带刀防守。

节点一：需求确认——这是不是一个伪命题？

这是最容易被跳过，也最致命的一步。很多团队一接触AI项目，就默认要搞一套庞大的知识库。但你真的验证过用户的真实需求吗？

如果用户的问题大多是通用性的，比如”帮我写一份年终总结的大纲”或者”解释一下宏观经济学”，裸模型本身就能回答得非常出色，强行接入RAG不仅浪费计算资源，还会拖慢响应速度。如果用户的问题确实涉及公司内部制度，但这些制度满打满算只有十几页纸，你完全可以把它们直接塞进系统提示词（System Prompt）里，斥巨资搭建一套向量数据库无异于大炮打蚊子。

产品经理的决策标准应该是量化的：把业务中最典型的真实用户问题提取出来，用当前主流的大模型直接跑一遍测试。仔细观察那些”裸模型完全答不好、胡编乱造或表示不知道”的问题占比是多少。只有这些问题，才是RAG真正需要去攻克的战场。

节点二：知识库策略——谁来给知识”续命”？

在建库阶段，算法工程师关注的焦点往往是”我该用什么解析工具”或”怎么建索引”。但产品经理必须把目光放得更长远：”这个库建完之后，靠什么机制活下去？”

业界有太多失败的AI项目，上线第一个月惊艳全场，到了第三个月就被用户彻底抛弃。原因非常简单：知识过期了。公司的请假审批流程已经改版，报销标准已经下调，但AI助手还在对着半年前的旧文档一本正经地指导员工。这种由于信息陈旧导致的产品信任度崩塌，最后一定会算在产品经理头上。

你必须在立项之初就明确定义数据治理的规则：数据源究竟从哪来？是依赖人工定期手动上传，还是通过API自动同步企业内部的Wiki和OA系统？谁来负责审核这些进入知识库的物料？”垃圾进，垃圾出”（Garbage In, Garbage Out）是数据工程的铁律，未经清洗的废话和格式混乱的表格直接喂给AI，只会产出更混乱的回答。更新的触发机制是定时拉取还是事件驱动？这些都是纯粹的产品运营机制决策。

节点三：数据清洗与切块——这是技术活，更是业务活

这是产品经理和算法团队冲突最频繁的隐秘角落。长文档进入知识库前，必须被切分成一个个小片段（Chunk）。算法同学为了工程便利，往往习惯使用默认参数：比如每块固定切分500个Token，前后重叠50个Token。

但业务逻辑从来不是按固定字数生硬排布的。想象一下，你在主导一个医疗问答AI的产品。在一份临床用药指南里，”适应症”和”禁忌症”在物理排版上是紧挨着的。如果系统按照固定字数进行暴力切块，恰好把”适应症”切到了A分块，把”禁忌症”切到了B分块。当用户提问”这款药什么人不能吃”时，如果系统由于语义偏差只召回了A分块，大模型就会基于A分块的信息告诉用户：这药很安全，大家都能吃。在医疗场景下，这种由于切块策略不当导致的遗漏，后果是不堪设想的。

产品经理的决策逻辑在于：你必须深度参与切块规则的制定。你要明确告诉技术团队，法律合同不能按字数切，必须按照”章-条-款-项”的逻辑层级进行结构化切分；SOP操作手册不能乱切，必须保证每一个操作步骤的上下文完整性。切块的粒度，必须与你洞察到的用户提问习惯精准匹配。

节点四：元数据标签——最容易被忽视的隐形杀手锏

这是整条RAG链路中，产品经理最容易直接跳过，但实际上对最终效果影响最大的一个节点。很多人误以为这只是后端的数据库字段设计，与产品体验无关。大错特错，元数据（Metadata）标签是高质量RAG系统的灵魂。

假设你在打造一个企业内部的HR问答机器人。知识库里同时存放着”正式员工”和”外包人员”两套截然不同的休假制度。如果没有元数据标签，当一个外包员工提问”我请年假需要提前几天申请”时，系统会在向量空间里同时检索出两份制度的相关片段。大模型拿到这两份矛盾的参考资料后，大概率会左右为难，给出一个含糊其辞的折中答案，甚至直接给出正式员工的标准。

但如果你在数据入库时，要求给每个知识片段打上明确的元数据标签，比如”适用人群：正式员工”或”适用人群：外包人员”。在检索阶段，系统就可以先获取当前提问用户的身份属性，利用标签进行硬性过滤，将检索范围精准锁定在外包制度内，然后再进行语义搜索。这种”先圈定范围，再大海捞针”的策略，能让准确率产生质的飞跃。

哪些标签是业务的关键过滤维度？是所属部门、职级、地域，还是文档的生效时间与版本号？只有深入理解业务的产品经理，才能定义出这套能把检索范围”精准缩小”的标签体系

节点五：召回策略——别迷信单一的”向量检索”

当下只要提到RAG，大家言必称”向量检索”（Vector Search），听起来非常前沿。但向量检索有一个天生的业务短板：它擅长理解模糊的语义，但对精确的关键词和数字极度不敏感。

举个例子，当用户提问：”合同编号 XY-2024-0918 的付款条款是什么？”这是一个极其明确的精确查询。向量检索在处理时，可能会觉得这个编号和”2024年”的语义很接近，从而给你召回一大堆2024年签署的其他合同，唯独漏了你要的那份。在这种精确匹配的场景下，最古老的关键词倒排索引（比如BM25）反而具有压倒性的优势。

产品经理在这个节点的决策建议是：不要让算法团队陷入单一技术的执念。真实的业务场景极其复杂，你应该推动他们采用”组合拳”策略：用关键词检索搞定精确匹配，用向量检索搞定语义泛化，两者结合形成混合检索（Hybrid Search），最后再叠加一个重排序（Rerank）模型来精选最相关的片段。这种架构虽然在工程上更复杂，但在解决真实用户痛点时，效果远超任何单一方案。

节点六：效果评估——怎么知道你的AI是不是在”装模作样”？

评估环节是产品经理核心价值的最高体现。算法同学通常会向你汇报一堆内部的技术指标：比如召回率（Recall）、精确率（Precision）或者F1分数。这些指标反映了系统内部的运转健康度，比如前K条结果里有没有命中标准答案，或者复杂问题的关联信息有没有被完整抽取。

但作为产品经理，你必须清楚：技术指标不能完全等同于业务结果。你还需要建立一套强业务导向的”产品评估体系”。这套体系应该关注：AI到底能正确回答多少比例的用户问题？它的能力边界在哪里？在真实的复杂语境下，结合多轮对话，它给出的答案是否经得起业务专家的推敲？用户拿到AI的回答后，是真的去执行了，还是默默关掉窗口重新去翻阅纸质文档？原本查阅一个复杂政策需要十分钟，现在是否真的缩短到了十秒钟？

为了得出客观结论，产品经理需要像构建产品护城河一样，亲自或者带领业务专家构建一个具有高度代表性的”评测数据集”。这个数据集不能只有简单的常见问题（FAQ），必须包含长难句、模糊表述、甚至是带有错别字的真实用户原话。每次算法模型迭代，都必须在这个数据集上进行严格的盲测。没有通过业务指标验收的版本，哪怕算法团队把内部的Loss函数降得再低，也坚决不能放行上线。

四、不懂算法，也能掌舵

回到文章开头那个让人深思的会议场景。

那个产品经理小A，其实代表了目前市面上很大一部分在AI转型期感到焦虑的同行。大家害怕自己不懂底层算法，害怕在技术评审会上被架空，于是试图去啃Python代码，去钻研Transformer的注意力机制。

其实，真的大可不必。

算法工程师可以把模型的推理参数优化到极致，但他无法判断某份报销政策里的”特殊豁免条款”对一线销售人员有多重要；他可以不断调优向量检索的精度，但他很难共情用户在面对一个极其专业的法律问题时，内心有多么渴望看到那个带有下划线的”溯源出处”链接。

产品经理在AI时代真正的不可替代性，是在每一个模糊的技术分叉口，做出那个”懂业务、知进退”的判断。

什么时候该上RAG，什么时候仅靠优化提示词就足够了；知识库用什么维度的切块策略，元数据标签体系该如何设计；当用户反馈召回效果不佳时，你能敏锐地定位出到底是检索策略出了偏差，还是源头的数据质量本身就是一团乱麻。

这些关乎产品生死的判断，没有任何算法工程师能替你做决定。只有深度理解业务逻辑、精准洞察用户心理、并对商业成本极其敏感的你，才能给出最终的答案。

在AI全面重塑软件形态的今天，我们设计的不再仅仅是页面跳转的”路径”，而是系统处理信息的”决策链”。作为产品经理，你大可以一行代码都不写，但你绝不能交出对产品核心链路的掌控权。当你能把晦涩的技术语言翻译成清晰的业务影响，把模糊的用户痛点转化为可执行的技术策略时，你就不再是一个旁观者，而是这个AI产品真正的灵魂工程师。