AI产品的RAG系统,到底该怎么做业务验收?

1 评论 2963 浏览 17 收藏 22 分钟

当AI知识库系统在实际业务中频频翻车,产品经理该如何避免成为"背锅侠"?本文深度解析RAG系统验收的三大核心维度:从检索命中率、生成忠实度到业务体验指标,揭秘如何通过黄金数据集和错题本机制,将人工智障变成真正可落地的业务助手。

今天咱们不聊那些虚头巴脑的宏大叙事,什么“AGI时代降临”、“大模型颠覆一切”。咱们关起门来,聊一个极其痛、极其现实,而且每天都在各大厂和小厂的会议室里真实发生的问题:

你们公司砸了钱、费了几个月搞出来的那个基于大模型的“知识库”或者“智能客服”(也就是大家常说的RAG系统),上线之后为什么表现得像个“人工智障”?更要命的是,作为产品经理,你到底该怎么对这玩意儿进行业务验收?

过去这一年,我见过太多血淋淋的案例:老板出去听了个讲座,热血沸腾地回来指派任务:“大模型现在这么牛,咱们赶紧把公司的所有产品文档、客服SOP、行业研报全扔进去,搞个AI助手!以后客服裁掉一半,效率提升200%!”

然后产品经理和研发兄弟们吭哧吭哧搞了一个月,用LangChain搭了个管线,接了个向量数据库,选了个开源大模型或者调了个API,跑通了几个Demo。在会议室里给老板演示的时候,问了几个设定的好问题,回答得有模有样,老板连连点头。

结果一灰度上线,面对真实用户的千奇百怪的问题,彻底崩盘了: 用户问:“退货运费谁出?” AI答:“根据《消费者权益保护法》,退货运费需视具体情况而定……”(废话连篇,就是不给确切答案)。 用户问:“你们系统怎么又崩了?” AI答:“抱歉,我没有找到关于‘系统又崩了’的相关信息。”。

这时候,业务方开始骂,老板开始拍桌子。你跑去找算法工程师,算法同学两手一摊:“模型能力就这样,知识库切片没命中,大模型产生了幻觉,这属于行业技术瓶颈,我能怎么办?”

作为这口大黑锅的最终接盘侠——产品经理,你是不是觉得特别憋屈?

憋屈的根源在于:面对AI这种“生成式”的黑盒产品,我们过去那套互联网时代的“软件验收标准”彻底失效了。

以前做个电商APP,下个单,要么成功要么失败,用自动化测试跑一遍用例(Test Case),Yes or No,清清楚楚。但现在,面对一个用自然语言回答问题的AI,你没法用Yes/No去衡量。它可能答对了一半,可能用错了一个词,可能态度很好但给的是错误信息。

如果你不能建立一套科学的、能落地的、能跟算法团队拉齐认知的“RAG业务验收标准”,你在这个AI时代就只是个画线框图的原型仔,随时被替代。

今天,我就把压箱底的实战经验掏出来,手把手教你建立一套RAG系统的评价体系。字数有点多,但全是干货,建议先收藏再看。

一、别听忽悠,打破RAG的认知迷雾

在聊怎么评估之前,咱们得先统一一下认知:RAG到底是个什么玩意儿?

别听那些技术文章里抛的一堆晦涩名词(什么Embedding、召回、重排)。用大白话讲,RAG(检索增强生成)就是一个“带着开卷考试资料进考场的图书管理员”。

它分为两个核心动作: 第一步是“检索(Retrieval)”:用户提问后,系统去你们建好的知识库里,把跟这个问题相关的资料找出来。 第二步是“生成(Generation)”:把找出来的资料,连同用户的问题,一起塞给大模型,让大模型看着资料总结出一个答案。

认清了这个本质,你就能明白一个极其重要的事实:RAG系统里90%的“智障”表现,根本不是大模型变笨了,而是你的“检索”做得很烂!

这就是所谓的“Garbage in, garbage out(垃圾进,垃圾出)”。如果用户问A商品怎么退货,你的系统从知识库里找出来的是B商品的维修说明,然后喂给大模型。大模型再聪明,也只能基于B商品的说明给你瞎编一段。这时候你去骂大模型有“幻觉”,大模型比你还冤。

所以,评估RAG系统,绝对不能只盯着最后的答案看。你必须把这个黑盒拆开,分段验收

二、告别玄学:三位一体的RAG评估矩阵

一套真正能在业务线跑通的RAG验收标准,必须包含三个维度:找得准不准(检索质量)、答得对不对(生成质量)、用得爽不爽(业务体验)

别怕这些名词,我用产品经理的语言给你翻译。

维度一:找得准不准?(Retrieval 检索质量评估)

这是整个RAG的命根子。作为PM,你要逼着算法同学给你看这里的漏斗数据,绝对不能只看最终答案。

怎么评估检索好不好?你主要盯三个点:

1. 命中率(Hit Rate) 大白话解释:用户问了一个问题,系统去知识库里捞了5段资料(这就叫Top-K,K=5)。这5段资料里,有没有哪怕一段是真正包含正确答案的?如果有,就算命中。 实战场景: 如果命中率极低,说明什么?说明你的知识库像个垃圾场,或者用户的问法和文档的写法完全是两个频道的语言。比如用户搜“碎屏险怎么买”,你的文档里写的全是“屏幕意外保障服务购买指引”。这时候你该干的不是去换个更贵的大模型,而是去搞同义词扩充、意图识别,或者重新清洗重写你的知识库文档。

2. 准确率(Precision)与噪音控制 大白话解释:系统捞出来的这5段资料里,有几段是真正有用的? 实战场景: 有时候命中率挺高,但找出来的5段资料里,只有1段有用,剩下4段全是毫不相干的废话。这会导致什么结果?这会严重干扰大模型的注意力(这就叫Context Window的噪音污染),大模型一看这么多资料,脑子一乱,最后总结出来的答案就极其容易跑偏。这就要求你去优化“切片策略(Chunking)”,别一捞就捞一大坨无关内容。

3. 排序质量(MRR / NDCG等排序指标) 别管英文缩写,大白话就是:最关键的那段资料,是不是排在最前面交给大模型的? 实战场景: 大模型是有“近因效应”和“首因效应”的。如果最重要的资料排在第5个,大模型大概率会忽视它,瞎编一个。你的系统必须能把最匹配的段落顶到前面去。这就涉及到了“重排(Rerank)”模型。如果你发现答案总是不精确,去问问算法同学:“咱们加Rerank模型了吗?”

维度二:答得对不对?(Generation 生成质量评估)

好,现在检索系统没问题了,给大模型的资料都是精准的。这时候我们再来评估大模型那张嘴靠不靠谱。这里也有三个极其关键的黄金指标(脱胎于业界的RAGAS框架,但我给你讲透彻):

1. 忠实度(Faithfulness):最核心的红线! 含义: 大模型的回答,必须、绝对、完全能够从你提供的资料里推导出来,不能有一丝一毫的自由发挥。 举个致命例子: 资料里写“本产品退货运费由买家承担”。大模型回答:“本产品支持7天无理由退货,通常情况下运费由买家承担,但如果是Plus会员可以免运费。”(这里的Plus会员免运费可能大模型从自己肚子里掏出来的公域知识,但你们公司根本没有这个规定)。 PM怎么验收: 这叫“典型的RAG幻觉”。在业务线,你可以答非所问,但绝对不能瞎编乱造给业务挖坑。一旦发现忠实度低,必须通过修改Prompt(提示词),死死按住大模型:“如果资料里没有提到,你就必须回答‘资料未提供’,严禁你自己补充信息!”

2. 答案相关性(Answer Relevance):能不能说人话,直击痛点? 含义: 回答是不是直接解答了用户的问题?有没有兜圈子?有没有说废话? 举个例子: 用户问:“北京到上海今天还有高铁票吗?”资料里有相关的列车时刻表。大模型回答:“高铁是中国重要的高速铁路交通工具,北京到上海是热门航线。根据资料,今天下午3点和5点还有G123和G124次列车的车票。” PM怎么验收: 这种回答虽然没造假(忠实度合格),但极其啰嗦,答案相关性低。特别是在移动端屏幕那么小,用户没耐心看废话。这时候你需要优化Prompt:“请用最简练的语言,一句话直接给出结论,再补充细节。”

3. 上下文相关性(Context Relevance):别被用户带偏了。 含义: 用户的问题可能很长,包含很多冗余信息或者情绪宣泄,系统能不能抽丝剥茧抓住核心? 实战场景: 用户一上来先骂了五百字你们产品多难用,最后一句问“账号怎么注销”。一个好的RAG系统不应该去跟用户讨论产品为什么难用,而是精准定位到“账号注销”去检索资料并回答。

维度三:用得爽不爽?(End-to-End 业务体验评估)

到了这一步,才算是回到了咱们产品经理的绝对主场。不管前面算法指标吹得多天花乱坠,最终我们要看业务漏斗。一套RAG系统到底成没成,看这几个真实世界的指标:

1. 首字响应耗时(TTFT – Time To First Token) 别扯什么大模型推理慢。在C端互联网,如果用户发完问题,界面上出现那个“正在输入…”的加载圈超过了 3秒钟 还没吐出第一个字,50%的用户就切出去看微信了;超过 5秒,这个功能宣告死亡。 你必须跟架构师死磕这个指标:是检索太慢?还是向量库拉胯?还是大模型API响应太慢?怎么做并发流式输出(Streaming)?这是极其硬核的用户体验。

2. 采纳率 / 任务完成率(Task Success Rate) 千万别只看那个大拇指(点赞)和踩(点踩)。我跟你讲句实话:用户在觉得好用的时候,是绝对不会去点赞的,他拿了答案就走了;只有在答案极其弱智惹怒他的时候,他才会去点个踩。 所以你要看“隐性行为反馈”。什么叫采纳?

  • 对于代码助手:他有没有点击“Copy”按钮?
  • 对于客服系统:在AI回答完之后,他在接下来的3分钟内,有没有继续点击“转人工客服”?如果没有,说明AI真帮他解决了,这就叫“挡单率”。
  • 对于搜索知识库:他停留在这个答案页面的时间是多久?秒退说明是垃圾回答。

3. 会话轮数与追问率(Session Depth) 这是个双刃剑,要结合业务场景看。如果是客服场景,轮数越少越好,说明一次性解决了问题;如果是陪伴型或者探索型的知识Agent,轮数越多说明用户越有探索欲,产品越粘人。产品经理必须提前定义好你的北极星指标到底是什么方向。

三、踩坑血泪史:为什么不能直接让大模型当“裁判”?

现在市面上流行一种做法,叫 LLM-as-a-Judge(用大模型做裁判)

什么意思呢?就是因为人工评估几百上千个问答对太累了,有些聪明的研发就写个脚本:把用户的提问、RAG系统的回答,打包扔给GPT-4,写一段Prompt说:“你现在是一个严厉的裁判,请给这个回答打分,满分10分。”

老板一看,太高效了!自动化测试!降本增效!

我在此郑重警告各位:在RAG系统上线的初期(冷启动和MVP阶段),不能用这套自动化评估。

为什么?老兵给你总结了三大坑:

坑一:AI会包庇AI(自带偏见) 大模型有一种天然的“冗长偏好(Verbosity Bias)”和“自我肯定”。它看到那种长篇大论、用了大量连词的废话,会天然觉得“写得真好”,给你打个高分。哪怕这个回答根本没解决业务问题。

坑二:大模型不懂你们的业务潜规则 你让GPT-4当裁判,GPT-4哪知道你们公司退费的特殊流程?哪知道你们内部黑话里的“盘活”、“抓手”是什么意思?它只能从语言学上判断逻辑通不通,根本判断不了业务上的“致命错误”。

坑三:把黑盒交给了另一个黑盒 你本来就搞不懂你的RAG为什么答错,现在你引入了一个裁判大模型,它给你打了个6分。你既不知道为什么你的RAG答错了,也不知道裁判为什么给6分。系统彻底成了玄学,你还怎么优化?

那么,正确的做法是什么?—— 放弃幻想,老老实实去建“黄金数据集(Ground Truth)”!

什么叫黄金数据集?这是产品经理在AI时代最重要的资产,比代码还值钱。 你需要拉着你们最资深的客服、最懂业务的运营,甚至你自己亲自下场,手工梳理出 100到200个 用户在真实场景下最常问、最刁钻的问题。

然后,对于每一个问题,人工写出标准答案(标准不一定是一段话,可以是几个必须包含的关键知识点)。

这就成了你的“黄金标尺”。以后算法团队每调一次参、每换一个大模型,你先把这100个问题跑一遍。

具体的盲测方法(强烈建议收藏): 拉上业务线的同学,把问题打乱。左边放旧版本的回答,右边放新版本的回答,隐去版本号。让业务同学像品酒师一样盲测:“A更好,还是B更好?好在哪里?” 只有人工盲测的胜率超过了某个阈值,这个版本才允许灰度上线。

前期的脏活累活,是为了后期系统不至于彻底失控。没有任何捷径可走,谁想偷懒,谁就会在生产环境被用户的投诉教做人。

四、从原型仔到AI架构师:PM的进阶之路

文章写到这,我相信你对RAG的评估已经有了一套体系化的框架。咱们再来聊聊产品经理在AI时代的工作流重塑。

以前我们做产品,画个原型,写个PRD,扔给开发,然后就等着验收UI和交互了。 现在做AI产品,交互极其简单,就是一个对话框。你难道天天去调整对话框的圆角大小吗?

在Agent和RAG时代,产品经理的核心价值,已经从“画界面”变成了“定义规则和建立数据飞轮”。

一个懂行的AI产品经理,在负责RAG项目时,他的工作日常应该是这样的:

1. 疯狂地清洗数据(比写PRD更重要) 如果你发现回答总是错,第一反应不应该是去找算法工程师,而是去看你喂给系统的那堆PDF、Word文档。 是不是里面有很多扫描版错别字? 是不是很多表格在转换成文本时格式全乱了? 是不是有很多过期的老规则没有删除,导致大模型看到了冲突的信息? 在这个时代,数据清洗能力就是产品经理的第一生产力。把屎一样的文档变成结构化、清晰的高质量语料,是你义不容辞的责任。

2. 建立常态化的 Bad Case Review(错题本审查机制) 系统上线后,每天都会产生大量的糟糕回答(Bad Case)。你必须搭建一个后台工具,把那些被用户点踩的、引发用户长篇大论怒骂的对话全抓出来。 每周拉着算法工程师和业务方开“错题本复盘会”。 拿着一个错误的回答,顺藤摸瓜:

  • 是意图识别错了?(用户在讽刺,系统以为在夸奖)
  • 是检索错了?(关键词没对上)
  • 是大模型傻了?(找出了正确资料但没总结对) 只有这样抽丝剥茧,才能把问题定位到具体的模块,算法工程师才有优化的抓手。

3. 设计优雅的“人工接管”防线(HITL – Human in the Loop) 无论你评估做得多好,大模型一定会犯错。产品经理必须要有兜底思维。 在RAG系统里,什么是底线?比如涉及法律纠纷、涉及金融转账、涉及严重客诉。你必须在系统里设定一个规则:当用户的问题触发了某些敏感词(比如“起诉”、“赔偿”、“报警”),或者大模型给自己的输出置信度很低时,系统必须立刻闭嘴,并将对话无缝转接给人工客服。 不让AI惹祸,比让AI出彩更考验产品经理的功力。

写在最后

这大半年,随着百模大战的冷却,大家已经看明白了:卷大模型的参数是硅谷巨头和国内大厂的事情,对于剩下的99%的移动互联网从业者来说,真正的战场在“应用落地”。

而应用落地最硬的骨头,就是怎么把那个“经常胡说八道”的模型,调教成一个“能在特定业务场景里稳定产出价值”的系统。

不要去迷信那些学术界搞出来的跑分榜单(Leaderboard)。一个大模型在考试里能拿第一,不代表它能处理好你们公司复杂的退费政策。

评测标准,永远掌握在离用户最近、离业务最近的人手里——那就是你,产品经理。

建立黄金测试集、盯死首字响应耗时、每周复盘Bad Case、搭建隐性反馈飞轮。当你把这套“脏活累活”真正跑通的时候,你就不再是一个在AI浪潮里感到焦虑的旁观者,而是一个真正掌握了AI定价权、能驾驭这种新质生产力的系统架构师。

本文由 @AI 新知社 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自作者提供

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. AI落地关键不在模型大小,而在PM能否死磕数据清洗与Bad Case复盘!

    来自河北 回复