做了8个AI场景，活了6个：活下来的有一个共同点

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

做了8个AI场景，活了6个：活下来的有一个共同点

Zoey

2026-05-15

0 评论 191 浏览 0 收藏

18 分钟

企业AI产品的落地过程中，决定AI不做哪些事往往比让它变聪明更难。本文作者通过三年实战经验，复盘八个AI应用场景中两个失败案例的致命缺陷——投标方案辅助因无法捕捉隐性知识而沦为鸡肋，会议纪要提取因过度自动化而触及组织敏感神经。而存活下来的六个场景，都遵循着严格的边界法则：AI的能力范围必须被精确锁定在可验证、可兜底、用户明确预期的小闭环内。这不仅关乎技术可行性，更是产品定位与用户信任的底层逻辑。

三年前开始做企业AI产品的时候，我觉得这行最难的事是让AI变聪明。三年后我发现最难的事是——决定不做什么。

2023年到2025年，我在一家软件公司的智慧能源事业部做AI产品经理。三年里服务了四家能源和政企客户，前前后后做了八个AI应用场景。合同智能审核、可研报告生成、设备台账解析、政策文件比对、投标方案辅助、技术问答知识库、会议纪要提取、运维工单分类——八个场景全部立了项，投入了资源。

最后活下来六个，砍掉两个。

“砍掉”这个词在甲方面前是不能说的。我们说的是”该场景已完成阶段性验证，后续视业务优先级调整”。翻译成人话就是：做不下去了，别再花钱了。

先说那两个死掉的。

第一个死掉的是投标方案辅助。甲方的想法是让AI根据招标文件自动生成投标方案的初稿。听起来特别美好对吧——投标团队每次写方案至少一周，如果AI能出初稿省掉三四天，那效率提升太明显了。我当时也觉得这个场景简直是为AI量身定做的。

POC阶段跑了三份招标文件，AI输出了三份方案初稿。单看每一份，格式工整、章节齐全、技术参数都有引用。我拿去给投标经理看，他翻了大概十分钟，然后合上说了句：”你这个方案哪个项目都能用，但哪个项目都不能中。”

后来我才理解他的意思。投标方案最值钱的部分不是格式和章节，是针对这个特定项目的竞争策略——你怎么理解甲方的真实诉求、你跟竞争对手比有什么差异化优势、你在哪些条款上让步哪些地方坚持。这些东西在每个人脑子里，在饭局上的只言片语里，在上一次竞标失败的教训里。不在任何文档中。

知识库里灌不进去的东西，AI就不可能输出。我们又花了两个月试图让投标团队把”隐性知识”文档化，搞了几次workshop。结果大家写出来的东西跟没写一样——”需要深入理解客户需求””结合项目实际情况制定策略”——全是正确的废话。不是他们不愿意写，是这种判断力真的很难变成文字。

三个月后我跟领导说这个场景建议暂停。领导问为什么。我说：这个场景的价值部分恰好是AI做不到的部分。AI能写的那些，投标团队也不觉得难。我们在用AI解决一个不存在的问题。

第二个死掉的是会议纪要提取。这个更冤，因为技术上其实做得不差。语音转文字加大模型总结，准确率我们测下来能到85%以上。但上线两周之后日活就掉到个位数了。我去问用户为什么不用，有个项目经理特别实在：”开完会我顺手就把纪要写了，三五分钟的事。你那个系统我还得把录音传上去、等它处理、看完再改一遍，时间差不多。”

更要命的是另一个问题。会议纪要里经常有些”不方便写进去”的内容——领导暗示的方向、没说出口的否决、”这个事你心里有数就行别往下传”——AI会老老实实把这些全部提取出来放进纪要。有一次差点出事，一个项目经理发现AI把领导在会上的一句吐槽写进了纪要初稿，吓得他赶紧删了，之后再也没用过这个功能。

怎么说呢，会议纪要这个场景不是AI能力不够，是这件事本身就不太适合完全自动化。它需要的不是”忠实记录”，是”有选择地记录”——而”选择”的标准在人的脑子里，跟组织政治有关，跟技术无关。

好，说完两个死的，说活着的六个。

活下来的六个场景差异挺大。有简单的比如设备台账解析，就是把PDF里的设备参数抽取出来填进结构化表格，没什么技术含量但很实用，上线之后基本不用管。也有复杂的比如合同审核和可研报告生成，前前后后磨了大半年，中间翻过好几次车。

但我后来反复想这六个活下来的场景，发现它们有一个共同点。这个共同点不是”技术好”，不是”模型强”，不是”需求明确”——是**AI的能力边界被画得很死**。

什么意思呢？拿合同审核来说。我们最终上线的产品，AI做的事情被严格限定在一个框框里：只审已有规则库里的260条内控规则和65份法规文档覆盖的范围。超出这个范围的条款，系统直接标”超出审核范围，建议人工重点关注”。不猜、不编、不硬扯。

AI的输出格式也是死的——条款编号、风险等级、问题描述、修改建议、法规依据，五个字段缺一个都不行。不许输出”建议关注””值得注意”这种模棱两可的话。要么说清楚问题是什么、应该怎么改、依据是哪条，要么直接说”该条款未发现规则库内的匹配风险”。

甚至连AI的”态度”都是规定好的。它的角色不是”智能法律顾问”，是”初审助手”——帮法务把明确的问题先筛出来，拿不准的标出来，复杂的留给人。你注意这个定位：它不是来替代法务的，它是来当法务的”第一遍粗筛工具”的。这个定位一旦确定，用户的期望就对了——他不会指望AI给出高深的法律判断，他只需要AI帮他省掉逐条对照规则库的体力活。

可研报告生成也是类似的逻辑。我们最后的设计是分章节生成，一章一章来，用户确认了再往下走。每一段AI生成的内容旁边都有溯源标注，点进去能看到原始文档出处。如果某段内容没有找到强相关的依据，直接标黄——”该段落参考依据较弱，建议人工补充”。

你可能觉得这些限制会让产品”看起来很弱”。确实。我们的系统不会写出那种洋洋洒洒、看起来什么都知道的长篇报告。但法务用了两个月之后跟我说了句让我印象很深的话：”我信得过这个系统。它说有问题的地方我仔细看，它说没问题的地方我就过了。”

采纳率72%就是这么来的。不是因为AI写得有多好，是因为用户知道AI什么时候可信、什么时候不可信。这个确定性比输出质量重要得多。

回过头来看那两个死掉的场景，问题恰好反过来——AI的能力边界没有被画死。

投标方案辅助，我们给AI的定位是”方案初稿生成”。这个定位太大了。”方案”意味着要有策略、有判断、有取舍，这些AI做不到但它会假装自己做得到——它会生成一份看起来像方案的东西，但投标经理一看就知道是空架子。如果当初我把边界画死——AI只负责”从历史方案库中检索相似项目的技术参数和报价结构”，不负责生成策略部分——可能这个场景就不会死。

会议纪要也是。”自动生成会议纪要”这个边界太模糊了。会议纪要需要人的判断力来筛选什么该记什么不该记，AI不知道这个边界在哪。如果当初限定为”自动提取会议中提到的待办事项和时间节点”——一个更窄、更确定的功能——结果可能完全不一样。

所以我现在总结出来的规律是：一个AI场景能不能活，取决于你能不能用一句话说清楚AI在这个场景里”只做什么”。注意是”只做什么”，不是”能做什么”。

“能做什么”是技术团队喜欢聊的——模型支持多长的上下文、RAG能检索多少文档、生成速度怎么样。这些当然重要，但它们回答的是”AI的能力上限在哪”。而”只做什么”回答的是”我们选择让AI做哪一小块”。这一小块必须满足三个条件：AI确实能做好、做完用户能直接验证对不对、做错了能兜得住。

三个条件缺一个，场景就危险了。

投标方案：AI能生成文字但策略部分做不好——第一条就没过。会议纪要：AI做了但用户没法快速验证该不该这么记——第二条没过。我见过另一个项目，做的是合同金额自动计算，AI算对了99%但错了那1%涉及真金白银——第三条没过。后来改成AI只做预填、人工确认，才活了下来。

这个判断框架看起来简单，但你在项目早期很难用。因为早期所有场景看起来都很美好——甲方热情高涨，领导大力支持，技术方案评审顺利通过。那个时候你说”这个场景可能不适合做”，所有人会觉得你在泼冷水。

我后来学了一个笨办法：在立项之后、开发之前，先做一轮”反向测试”。不是测AI能不能做，而是测”AI做错了会怎样”。找几个最可能出错的case让AI跑一遍，然后把错误的输出拿给业务用户看，问他三个问题：这个错误你能一眼看出来吗？看出来之后你能快速改对吗？如果没看出来直接用了会怎样？

如果三个答案是”能看出来、能改对、后果可控”，这个场景可以做。如果有一个答案是否定的——特别是第三个——你就需要重新考虑AI在这个场景里的边界了。

投标方案那个场景如果做过这个测试，投标经理看到AI生成的策略部分肯定会说”这东西我没法一眼判断对不对，要是没改直接用了投标可能废了”——第二条和第三条都过不了。当时要是做了这个测试，可能三个月的时间就省下来了。

但说实话我也是踩了坑才想出这个办法的。当时如果有人跟我说”你先别做，先测测AI做错了会怎样”，我可能也听不进去。项目已经立了项、资源已经排了，所有人都等着看成果。在这种惯性下喊停需要的不是洞察力，是胆量。

三年做下来我有一个挺深的感触：做AI产品经理，最难的不是找到AI能做什么，是接受AI不能做什么。

你去参加任何一个AI产品的立项会，讨论的都是”AI能帮业务做这个做那个”。没人讨论”这件事AI做了但做不好怎么办”。因为立项会的氛围是打鸡血的，你这时候说”可能做不好”，跟在婚礼上说”可能过不长”一样扫兴。

但做不好的场景如果硬做，结果比不做更糟。不做，业务部门顶多觉得”AI还不够成熟”；做了但体验很烂，业务部门的结论是”AI不靠谱”。前者留了余地，后者关了门。

我砍掉那两个场景的时候压力不小。投标方案那个是甲方分管领导亲自点名要做的，砍的时候我做了一份很详细的分析报告，列了试点数据、用户反馈、继续做的预估投入和预期效果。领导看完沉默了一会儿说：”行，先放一放。”后来那个客户的二期合同里没有再提这个场景，但其他五个场景的续签额反而比预期高——我猜是因为剩下的场景因为更聚焦，做得更扎实了。

会议纪要那个砍得更干脆。两周日活掉到个位数之后我直接拉了一个复盘会，把数据摆出来：”日活3人、使用时长人均不到2分钟、生成的纪要0份被最终采用。”这些数字就够了，不用解释。

但我也承认，砍场景这件事，三年前的我是做不到的。那时候我觉得AI产品经理的工作就是把AI能力塞进尽可能多的场景里，场景越多显得越有价值。后来才明白，你塞进十个场景但八个没人用，不如只做两个但两个都真的帮上忙。甲方续签的时候不会数你做了几个场景，他会看哪个场景真的在用。

最后说一个我自己还在琢磨的问题：边界画在哪，是个动态的事。

去年合同审核的规则库是260条，今年客户想加到400条。加了之后AI的审核覆盖范围更大了，但准确率会不会下降？下降了怎么办？是扩大边界让AI审更多但偶尔出错，还是保持现有边界确保高准确率？

这个问题没有标准答案。客户说想要更多覆盖，法务说别降低准确率，研发说加规则需要时间。我现在的做法是每加一批规则就跑一轮评测，准确率掉到阈值以下的就回退。但这个过程挺磨人的——你得一直在”做更多”和”做更好”之间找平衡，而且这个平衡点会随着客户需求和模型能力的变化不停地移动。

做AI产品三年，如果只能留一句话，我会说：别急着想AI能做什么，先想清楚让AI只做什么。这个”只”字，是我花了两个死掉的场景和三个月的沉没成本才学会的。

本文由 @Zoey 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App