企业AI验收的潜规则：2026年了，为什么90%的项目还在用Demo验收

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

企业AI验收的潜规则：2026年了，为什么90%的项目还在用Demo验收

Zoey

2026-05-08

0 评论 141 浏览 0 收藏

18 分钟

企业AI项目验收正在沦为一场心照不宣的表演。本文通过能源行业真实案例，揭示了80%的AI项目在验收后无人问津的残酷现状。从精心挑选的演示案例、38%的尴尬采纳率，到法务人员"敢不敢签字"的灵魂拷问，作者用亲身经历剖析了行业验收标准与真实价值间的巨大鸿沟，并给出了留存率、采纳率、工时对比三大硬核验收指标，为企业AI产品落地提供了破局思路。

去年年底，我参加了一个能源行业的AI项目验收会。

甲方五个人坐一排，乙方项目经理打开系统，挑了一份合同传上去，大屏幕上AI开始逐条审核——风险等级、问题描述、修改建议、法规引用，全出来了。画面很漂亮，逻辑也通顺。法务看了两眼点了点头。项目经理又换了一份设备采购合同，审核结果依旧干净利落。然后是技术服务合同，同样没什么问题。三份合同跑完，甲方分管领导说了句”可以”，会议结束，验收通过。

全程四十分钟。甲方没提一个刁钻的问题。乙方没出任何意外。

我坐在后排看完整场，心情很复杂。因为我知道一些这间会议室里没人会说出来的事情：那三份合同是乙方提前测了十几份之后精心挑出来的。甲方法务其实上个月就跟项目经理打过电话，大概知道今天会演什么。系统上线两个月了，日活不到5人。我看了眼旁边一个乙方的研发，他全程在低头看手机，可能这种场面他也看腻了。

这不是验收。这是一场双方配合默契的表演。

从2024年大模型进入企业到现在快三年了，我亲历或近距离观察过不下十个企业AI项目的交付验收。说个不好听的数字——真正在验收后还被业务部门持续使用的，不超过两成。剩下八成？验收报告写得漂漂亮亮，PPT上的数据都很好看，双方握手合影，然后系统就安静地躺在那儿，再也没人打开。

怎么说呢，这个流程做了几个项目之后你会发现它惊人地相似。验收前一到两周，乙方团队会进入一个内部流程——选Case。拿什么合同来演示？用什么数据来跑？哪个场景效果最好？哪个场景千万不能碰？这个过程极其认真，甚至比做产品本身还认真。有时候为了一个演示效果，技术会临时针对某份合同优化提示词，确保当天那份合同的审核结果”恰好”是完美的。我有一次在项目群里看到研发说了句：”这份合同别用，审出来第三条有幻觉。”然后那份合同就从演示列表上消失了。当时没人觉得这有什么问题。

甲方其实不傻。验收那天坐在会议室里的人，心里大概清楚这是演示不是实战。但他们有自己的压力——项目立项的时候汇报了领导，花了预算，半年过去了总得有个交代。验收不通过，下一轮追加预算批不下来，立项的人脸上也挂不住。所以大家心照不宣地把这场戏演完，各取所需。验收报告签了，款回了，乙方撤了，甲方在下次季度汇报里写上”AI XX项目已完成验收并上线”。至于上线之后有多少人在用——在大部分企业的考核体系里，”项目完成验收”就是终点，后面的事没人管。

这事我见多了之后，倒不觉得讽刺了，更多是一种心酸。不是哪一方在故意糊弄，是整条链上每个人都有自己不说真话的理由。

说说我自己的教训。

入行做AI产品的第一个项目，给一家能源集团做智能写作。内部测试跑了几轮，效果看着不错。第一次给客户正式演示，大屏幕上AI一条一条输出内容，格式漂亮逻辑通顺。我坐在那儿心想稳了。

研究员在安静地看，看到第六条还是第七条的时候手指点了一下屏幕——这个术语不对，”投资总额”和”项目总投资”在他们那差着几千万呢。

会议室一下子安静了。那种安静到现在想起来都不太舒服。

这还不是最扎心的。最扎心的是系统正式上线之后，我去后台拉数据：AI生成的内容，用户实际采纳率只有38%。就是说系统输出100段内容，研究员会把62段扔掉或者改得面目全非。有三个研究员在第二周之后就再也没登录过。

38%。如果按”传统”验收标准，这个项目是”通过”的——功能都实现了，系统能跑，演示效果也凑合。但你想想38%意味着什么？系统产出的东西有六成是废话。研究员宁可自己写，也不想花时间去修AI写的半成品。一套验收标准，能让采纳率只有38%的产品”通过”——那这套标准到底在验收什么？

三份精心挑选的合同和三百份真实业务合同之间，隔着一整个世界。Demo能蒙混过关，日活数据不会。

后来我花了差不多半年把这个数字从38%拉到72%。过程里踩了很多坑，但那些坑不是今天的重点。今天想聊的是——在这个过程中，我逐渐想明白了一件事：为什么整个行业都在”演”。

先说乙方，这个好理解。ToB的AI项目从商务到交付到验收，周期半年到一年，团队绩效、公司现金流全绑在验收节点上。验收不通过，项目经理年终奖没了，公司的应收账款变坏账。你让一个背着回款指标的人去做”客观验收”，这不现实。

甲方呢？甲方也有自己的难处。2024年之后几乎所有大中型企业都把”AI赋能”写进了年度战略，业务部门拿到预算上了AI项目，到年底总得有个交代。至于AI到底帮了多少忙——说实话，很多甲方自己也不知道该怎么衡量这件事。”好用”这个词太主观了，谁来定义？用什么尺子量？没人说得清。

最尴尬的是中间那层人。负责对接的项目经理或者业务骨干，他天天在用系统，最清楚好不好使。但你想想他的处境：跟上面说不好用吧，领导会问”那当初你为什么同意上这个”；跟乙方说不好用吧，关系搞僵了后面维护谁来做。我有次跟一个客户方的对接人喝咖啡，他说了句特别实在的话——”我觉得不好用，但我不知道不好用的标准是什么，万一其实就这样呢？”这句话让我沉默了挺久的。他不是不想说真话，是连衡量真假的尺子都没有。

说白了就是：当”项目验收”和”产品好用”是两个完全脱钩的考核指标时，所有理性人都会选择先确保前者。

那真正的验收应该看什么？

我后来在项目里推了三个指标，写进合同的那种。第一个是采纳率——AI输出的内容，用户不做大幅修改直接用的比例，阈值设在60%，低于这个数字验收不通过。这个指标不能用测试数据算，必须用真实用户的真实行为数据，连续跑两周。第二个是留存率——上线两周后还在用的人占比。第一周20个人用第三周只剩3个，那你系统就是没解决问题。第三个是工时对比——用AI前后完成同类任务的时间差。别笑，用AI反而更慢的情况真不少见，用户得花时间检查AI的输出，有时候还不如自己从头写快。

这三个指标一摆，很多东西”演”不了了。你可以选Demo的Case，但你选不了用户两周内的真实行为。

我第一次跟客户提这套方案的时候，对方的项目经理愣了一下。他大概没见过乙方主动要求用这么狠的标准来验收自己。我当时跟他说：你用功能清单验收，项目是”成功”了，但三个月后没人用，一期的钱白花了二期也不会有了；你用真实数据验收，可能今天数字不好看要返工两周，但你拿到的是一个真正能用的东西。他想了想，同意了。后来那个项目的二期合作确实签了。说实话我自己也没完全想清楚客户为什么续签——可能72%这个数字还行，也可能他们就是觉得这个团队至少不糊弄。

说个插曲。在拉采纳率的过程中我发现了一件反直觉的事——AI产品里特别值钱的一个能力是”能说我不确定”。

有一次试点阶段，系统碰到一条很冷门的知识产权条款。知识库里没有对应的法规，RAG检索勉强返回了一条沾点边的东西，大模型就硬着头皮编了一条审核意见。看着像那么回事——直到法务认真一查，发现引用的法规跟这个条款根本不是一回事。那个场面真的很窘迫。我当时坐在旁边恨不得找个地缝钻进去。

从那天起我定了一条死规矩：检索结果相关度低于阈值的，系统必须标”未找到强相关依据，建议人工重点审核”。不许生成似是而非的东西。

很多做AI产品的人觉得模型说”我不知道”很丢人。但在企业场景里恰恰相反。法务跟我说过一句话：AI告诉我这条它不确定，我顶多觉得这个地方我多看看；但如果AI自信满满给了个错的，我以后再也不会信它了。你想想，信任这东西毁起来比建起来快太多了。一旦用户形成了”标了不确定的我仔细看，没标的我可以信”这个预期，采纳率就会往上走。反过来，那些永远不说不确定的AI产品，用户踩了几次坑之后会对所有输出都打问号——包括那些其实对了的。

还有一个经验。38%那个数字出来之后，我做的第一件事不是调模型，是去客户现场坐了两周。每天搬把椅子坐在研究员旁边，看他们怎么处理AI的输出。

这个方法很笨，但看了两天就发现了后台数据里看不到的东西。

研究员写报告有自己的节奏和习惯。氢能项目他盯技术路线和经济性测算，光伏项目他看并网条件和土地政策。但系统不管什么项目类型，提示词用的都是同一套模板——输出的内容像论文摘要，什么都沾一点，什么都不深入。研究员看一眼就知道这不是内行人写的。

还有个更微妙的问题。AI两分钟生成一整章，研究员打开一看几千字呼啦一下全出来了，他反而不知道从哪看起。他的工作习惯是逐节打磨，一节一节确认。一下给一大坨，他觉得失控了。

更让我想了好几天的是一个研究员说的话：AI引用的数据我没办法确认来源，我不敢直接用——出了问题，报告上签的是我的名字，不是AI的名字。

这三个问题——术语不对、节奏不匹配、来源不可信——都是坐在旁边看出来的。在后台数据里它们长一个样，就是”用户没采纳”，你分不清为什么。但原因完全不一样，解法也完全不一样。后来回来之后把提示词按项目类型拆了三套，生成流程改成分章节确认，每条引用加了溯源标注。三个改动加起来，采纳率从55%跳到了72%。如果验收之前有人愿意花两天时间坐在用户旁边看看，很多问题根本走不到验收那一步。但谁愿意呢？项目经理忙着做PPT，研发忙着修bug。这个事只能产品经理去做。最笨但最有效。

往大了说一句。2024年是大模型进企业的POC之年，所有人在做概念验证。2025年是交付之年，项目开始上线。2026年应该是清算之年——那些”成功验收”的项目到底创造了多少真实价值？但据我观察这场清算还没真正到来。大部分企业还在用功能清单、Demo演示、测试用例通过率来验收AI产品。这些指标对传统软件够用——按钮在不在、流程通不通、数据存没存——但AI产品的输出是概率性的，同一个输入今天输出A明天可能输出B，你没法用打勾的方式验收一个非确定性的系统。

我觉得应该在功能验收之上加一层东西。暂且叫它”价值验收”吧——用户用不用（留存率），用户认不认（采纳率），用户省不省（工时对比）。这三个指标可以根据场景调整阈值，但不能没有。有人可能觉得把这些写进合同对乙方压力太大。我理解这个顾虑。但如果连乙方自己都没信心把这些做到及格线，那这个项目从一开始就不该签。更现实的做法是阶段性验收——不要等项目结束才验收一次，中间设两三个里程碑，每次跑一次真实数据。数字不好看没关系，早发现早调整，总比最后一天发现全完了强。

2026年了，大模型的通用能力已经很强了，主流模型之间差距越来越小。但企业AI项目的实际使用情况好像并没有因此改善。模型变强了，产品没变好用——中间断了什么东西，我到现在也不敢说自己完全想明白了。但有一件事我比较确定：在那间会议室里，甲方研究员看着屏幕上AI生成的内容，心里想的不是”这个模型用的是哪家的”，是”这段话我敢不敢直接放进报告里签字”。

这个问题，benchmark回答不了，Demo回答不了，验收报告回答不了。只有真实的使用数据能回答。

如果你也在做企业AI产品，建议你下周一上班打开后台，看两个数字：过去两周的日活是多少，采纳率是多少。如果你发现你的系统连这两个数字都没有——那问题可能比你想的要大。

本文由 @Zoey 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App