RAG 落地踩坑实录：采纳率从 38% 到 72%，中间全是弯路

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

RAG 落地踩坑实录：采纳率从 38% 到 72%，中间全是弯路

Zoey

2026-05-11

0 评论 1078 浏览 5 收藏

10 分钟

从38%到72%的采纳率跃升，一个能源行业合同审核AI产品的实战复盘揭示了RAG技术的真实挑战。当标准方案遭遇法务的犀利评价，产品团队如何通过切片策略重构、企业规章补充和提示词革命，最终让AI输出从‘学术摘要’蜕变为‘专业意见’？本文深度拆解了那些教科书不会告诉你的关键突破点。

去年带团队做了一个合同审核的 AI 产品，给一家能源集团用的。核心就是 RAG，把法规文档、内部规章什么的灌进知识库，合同传上来之后自动检索、自动出审核意见。技术方案评审那天大家都挺乐观的，觉得这不就是标准流程嘛，能有多难。

后来的事情证明，确实挺难的。大半年时间，采纳率从 38% 磨到 72%。我有时候加班到很晚出公司门的时候会想，我之前做了八年 B 端产品，踩的坑加起来都没这一个项目多。

先说 38% 是怎么来的。一开始我们做了最标准的方案，60 多份法规文档切片向量化，灌进向量数据库。用户传合同上来，提取条款，检索相关法规，喂给大模型出审核意见。很教科书。Demo 阶段跑了几份合同，大家看了看觉得像那么回事。

真正拿去给客户用的时候就不是那么回事了。第一批试点 30 份真实合同，甲方法务一条一条看完，给了句话我到现在还记得——”说的都对，但没什么用。”就这一句。审核意见太泛了，像在背法条，跟这份合同的具体情况对不上。而且语言风格不对，法务写审核意见有自己的腔调，AI 写出来的像论文摘要。38% 的采纳率，十条里面法务觉得三四条还行，剩下的他看完直接划掉。

那段时间挺受打击的。后来复盘我才意识到自己犯了一个挺蠢的错误：我一直在把 RAG 当技术问题来解，以为检索准了、模型强了，输出自然就好。但其实不是那么回事，检索准只是基础，真正决定输出好不好的是你怎么告诉模型——用什么身份说话，从什么角度分析，输出什么格式。这是产品问题，不是算法问题。

第二轮改进搞了一段时间，采纳率到了 55%。做的事情说起来不复杂。

切片策略改了。最早按固定长度切，500 字一段，结果法规文档经常被切得乱七八糟，一条法规切成两半，或者两条不相关的拼在一起。法规文档的结构其实很清楚，每一条每一款就是一个独立的意思，按条款边界切就好了。改完之后检索回来的东西终于是完整的一条一款了，不再是半截话。后来还搞了个分层粒度，审核用细的，报告用粗的——不过这个是后来才想明白的，一开始没有这个意识。

然后补了企业内部规章。这个是法务自己提的，他说你们光查法律法规不行，我们审合同还要看自己公司的内控规则。比如”违约金不能超过合同金额的 15%”，这种东西法律里哪儿有，但审核的时候必须卡这条线。我一听觉得有道理，赶紧补。补完之后效果明显了不少。

还有就是调了向量检索的阈值，最终用了 0.75。这个数字是团队拿 50 条已知答案的查询一个一个试出来的，0.7 噪音太多会引入不相关的东西，0.8 又太严漏掉一些措辞不同但确实相关的法规。0.75 算是个平衡。当然后来上线了又微调过，这种东西没有一劳永逸的。

到 55% 的时候法务反馈变了，不说”没什么用”了，改成了”有参考价值，但有些意见明显不是内行人写的”。行吧，至少从”没用”升级到”不够专业”了，方向是对的。

55% 到 72% 这一步我印象特别深，因为方法跟之前完全不一样。之前都在折腾检索，这一步靠的是提示词。

起因是我做了一件事——搬了把椅子坐到法务旁边，看他们怎么审合同。看了两周。说实话刚开始挺无聊的，法务审合同就是一条一条看嘛，但看了几天我发现一个之前完全没注意到的事情：不同类型的合同，他们审的重点完全不一样。工程承包合同他们盯着工期、质量、安全责任看，设备采购合同关心的是验收标准和质保期，技术服务合同又变成服务范围和保密义务。但我们的提示词呢？一套通用的，不管什么合同都一个审法。怪不得输出像论文摘要——因为提示词本身就没有场景感。

回来之后我给提示词做了拆分。先把角色从”你是一个 AI 助手”改成”你是能源行业的资深合同法务顾问”——就这么一行改动，输出的语感就不一样了。然后严格规定输出结构，条款编号、风险等级、问题描述、修改建议、法规依据全都要有，不能只给一句”建议修改”就完事。最后画了红线：必须引用具体法规，不确定的标”建议人工复核”，绝对不许生成合同里没提到的内容。三类合同各写了一套。

还有一个改动我差点忘了说，效果可能是最大的——加 Few-shot 示例。就是在提示词里附上三到五个法务之前审过的真实案例，输入是什么、输出长什么样、引用了哪条法规。让模型看到行家是怎么写审核意见的。这比你写一大段话描述”请用专业的口吻”有用得多，模型能直接照着那个味道来。

72% 出来那天我记得法务负责人说了句：”这个可以替代初审了，但复审还是得我来。”我当时心里挺高兴的，倒不是因为数字好看，而是觉得这个定位终于对了——AI 帮你干粗活，精细的判断还是人来。

后来也有人问我为什么不继续往 90% 推。说实话不是不想，是剩下那 28% 里面大部分不是技术能搞定的。非标条款，每个供应商写法都不一样，同一个意思能有十几种表述，知识库覆盖不过来。还有些纯粹是这个客户特有的业务习惯——有个供应商跟他们合作了十年了，有条条款从法律角度看确实有风险，但人家年年都这么签，这种事情不在任何文档里只在法务脑子里，你让 AI 上哪儿学去。后来我也想开了，72% 在这个场景里够用了，每份合同能省六七成的初审时间，法务把精力花在真正需要动脑子的地方就好。

回头看这大半年，有几件事我印象比较深。一个是切片策略真的比模型选择重要，很多人纠结用什么模型，其实切片切不好，模型再强也白搭。另一个是提示词千万别偷懒用通用模板，花两周时间去理解业务场景然后写有针对性的提示词，这个投入产出比太高了。Few-shot 也是，之前我觉得写几个示例能有多大用，试了才知道在专业领域效果好得离谱。

还有就是那两周坐在法务旁边的经历。当时组里有人觉得我是不是闲的，一个产品经理天天跑去看人家审合同。但很多关键洞察就是那两周出来的，开会是想不出来的。你得看到他们真实的工作状态，看到他们对着某条条款皱眉的那个表情，你才知道问题出在哪。

本文由 @Zoey 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App