RAG 落地踩坑实录:采纳率从 38% 到 72%,中间全是弯路

0 评论 153 浏览 1 收藏 10 分钟

从38%到72%的采纳率跃升,一个能源行业合同审核AI产品的实战复盘揭示了RAG技术的真实挑战。当标准方案遭遇法务的犀利评价,产品团队如何通过切片策略重构、企业规章补充和提示词革命,最终让AI输出从‘学术摘要’蜕变为‘专业意见’?本文深度拆解了那些教科书不会告诉你的关键突破点。

去年带团队做了一个合同审核的 AI 产品,给一家能源集团用的。核心就是 RAG,把法规文档、内部规章什么的灌进知识库,合同传上来之后自动检索、自动出审核意见。技术方案评审那天大家都挺乐观的,觉得这不就是标准流程嘛,能有多难。

后来的事情证明,确实挺难的。大半年时间,采纳率从 38% 磨到 72%。我有时候加班到很晚出公司门的时候会想,我之前做了八年 B 端产品,踩的坑加起来都没这一个项目多。

先说 38% 是怎么来的。一开始我们做了最标准的方案,60 多份法规文档切片向量化,灌进向量数据库。用户传合同上来,提取条款,检索相关法规,喂给大模型出审核意见。很教科书。Demo 阶段跑了几份合同,大家看了看觉得像那么回事。

真正拿去给客户用的时候就不是那么回事了。第一批试点 30 份真实合同,甲方法务一条一条看完,给了句话我到现在还记得——”说的都对,但没什么用。”就这一句。审核意见太泛了,像在背法条,跟这份合同的具体情况对不上。而且语言风格不对,法务写审核意见有自己的腔调,AI 写出来的像论文摘要。38% 的采纳率,十条里面法务觉得三四条还行,剩下的他看完直接划掉。

那段时间挺受打击的。后来复盘我才意识到自己犯了一个挺蠢的错误:我一直在把 RAG 当技术问题来解,以为检索准了、模型强了,输出自然就好。但其实不是那么回事,检索准只是基础,真正决定输出好不好的是你怎么告诉模型——用什么身份说话,从什么角度分析,输出什么格式。这是产品问题,不是算法问题。

第二轮改进搞了一段时间,采纳率到了 55%。做的事情说起来不复杂。

切片策略改了。最早按固定长度切,500 字一段,结果法规文档经常被切得乱七八糟,一条法规切成两半,或者两条不相关的拼在一起。法规文档的结构其实很清楚,每一条每一款就是一个独立的意思,按条款边界切就好了。改完之后检索回来的东西终于是完整的一条一款了,不再是半截话。后来还搞了个分层粒度,审核用细的,报告用粗的——不过这个是后来才想明白的,一开始没有这个意识。

然后补了企业内部规章。这个是法务自己提的,他说你们光查法律法规不行,我们审合同还要看自己公司的内控规则。比如”违约金不能超过合同金额的 15%”,这种东西法律里哪儿有,但审核的时候必须卡这条线。我一听觉得有道理,赶紧补。补完之后效果明显了不少。

还有就是调了向量检索的阈值,最终用了 0.75。这个数字是团队拿 50 条已知答案的查询一个一个试出来的,0.7 噪音太多会引入不相关的东西,0.8 又太严漏掉一些措辞不同但确实相关的法规。0.75 算是个平衡。当然后来上线了又微调过,这种东西没有一劳永逸的。

到 55% 的时候法务反馈变了,不说”没什么用”了,改成了”有参考价值,但有些意见明显不是内行人写的”。行吧,至少从”没用”升级到”不够专业”了,方向是对的。

55% 到 72% 这一步我印象特别深,因为方法跟之前完全不一样。之前都在折腾检索,这一步靠的是提示词。

起因是我做了一件事——搬了把椅子坐到法务旁边,看他们怎么审合同。看了两周。说实话刚开始挺无聊的,法务审合同就是一条一条看嘛,但看了几天我发现一个之前完全没注意到的事情:不同类型的合同,他们审的重点完全不一样。工程承包合同他们盯着工期、质量、安全责任看,设备采购合同关心的是验收标准和质保期,技术服务合同又变成服务范围和保密义务。但我们的提示词呢?一套通用的,不管什么合同都一个审法。怪不得输出像论文摘要——因为提示词本身就没有场景感。

回来之后我给提示词做了拆分。先把角色从”你是一个 AI 助手”改成”你是能源行业的资深合同法务顾问”——就这么一行改动,输出的语感就不一样了。然后严格规定输出结构,条款编号、风险等级、问题描述、修改建议、法规依据全都要有,不能只给一句”建议修改”就完事。最后画了红线:必须引用具体法规,不确定的标”建议人工复核”,绝对不许生成合同里没提到的内容。三类合同各写了一套。

还有一个改动我差点忘了说,效果可能是最大的——加 Few-shot 示例。就是在提示词里附上三到五个法务之前审过的真实案例,输入是什么、输出长什么样、引用了哪条法规。让模型看到行家是怎么写审核意见的。这比你写一大段话描述”请用专业的口吻”有用得多,模型能直接照着那个味道来。

72% 出来那天我记得法务负责人说了句:”这个可以替代初审了,但复审还是得我来。”我当时心里挺高兴的,倒不是因为数字好看,而是觉得这个定位终于对了——AI 帮你干粗活,精细的判断还是人来。

后来也有人问我为什么不继续往 90% 推。说实话不是不想,是剩下那 28% 里面大部分不是技术能搞定的。非标条款,每个供应商写法都不一样,同一个意思能有十几种表述,知识库覆盖不过来。还有些纯粹是这个客户特有的业务习惯——有个供应商跟他们合作了十年了,有条条款从法律角度看确实有风险,但人家年年都这么签,这种事情不在任何文档里只在法务脑子里,你让 AI 上哪儿学去。后来我也想开了,72% 在这个场景里够用了,每份合同能省六七成的初审时间,法务把精力花在真正需要动脑子的地方就好。

回头看这大半年,有几件事我印象比较深。一个是切片策略真的比模型选择重要,很多人纠结用什么模型,其实切片切不好,模型再强也白搭。另一个是提示词千万别偷懒用通用模板,花两周时间去理解业务场景然后写有针对性的提示词,这个投入产出比太高了。Few-shot 也是,之前我觉得写几个示例能有多大用,试了才知道在专业领域效果好得离谱。

还有就是那两周坐在法务旁边的经历。当时组里有人觉得我是不是闲的,一个产品经理天天跑去看人家审合同。但很多关键洞察就是那两周出来的,开会是想不出来的。你得看到他们真实的工作状态,看到他们对着某条条款皱眉的那个表情,你才知道问题出在哪。

本文由 @Zoey 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!