AI面试题:如何评估RAG的效果?
AI 面试高频易错点!“如何评估 RAG 效果” 不仅难倒新手,连有项目经验的从业者也易踩坑。文章跳出单一技术指标,从技术侧(检索、关系链、生成)和产品侧(覆盖范围、准确率、效率)双维度拆解评估体系,结合 HealthBench 案例揭秘完整评测闭环,还纠正了向量库是 RAG 必需品的认知误区,助你面试降维打击。

最近学员陆续有出去面试的,他们经常遇到的一个问题就是:
如何评估RAG的效果?
这道题是很常见的、并且很容易答错,其中涉及到的解决方案也属于AI项目中的难点,甚至很多已经做过RAG项目的同学都容易一头雾水,如何解答,就是我们今天要讨论的。首先看全局:

RAG效果评估属于产品评测的中的技术分支。他的主体是测试标准、数据集、测试方法。以之前的项目经历这里也有一套全景图,大家先感受:

对于生产级RAG产品来说一般有两套评估标准,一套是属于产品体系的、一套是属于技术体系的,我们先说技术体系。
PS:大家要注意真实项目中,产品层面的体系会重要很多
技术体系的评测指标
我们之前说过,复杂的AI项目,其难度有三:
第一,如何将认知整理成知识,或者已经有知识的情况下,如何组织数据;
第二,数据应该如何与AI交互,保证每次AI都能拿到相关数据。发现由于数据不足导致的AI问题,应该如何用生产数据反馈系统优化知识库,这就是我们常说的数据飞轮系统,他是数据工程的一个分支;
第三,也是最后一个关卡,意图识别;
只说面试官的意图来说,其实他在关注第二点,而这里展开的话又有新的三点:
- 每次检索能不能拿到对应的数据;
- 数据是不是合适,这块的合适包括会不会多、会不会少,多了费Token是小事,但可能干扰模型、少了就容易出问题;
- 生成对不对,这个建立在检索正确,数据组织正确的情况下,模型最终输出是不是符合预期;
只不过AI产品(完整的RAG系统)并不是割裂的个体,如果基础的知识结构有问题,那么无论是检索质量还是生成质量都会受影响,但那太复杂,如果只是要回答面试题,衡量指标也可以分为三个大的部分:
- 检索评估;
- 关系链(知识结构)评估;
- 输出评估;
一、检索评估
检索评估的核心指标为召回率,也就是我一个问题是否能够将相关的知识检索出来,这块一般会做一个提前准备好的评测集,他大概长这样:
用户问题 Q
正确应该命中的文档或段落 ID(一个或多个)D*
或者
正确该命中的数据
这里要特别注意的就是文中的或者,现在很多人会想当然的认为RAG就一定会与向量库挂钩,但在我实际碰到的项目,至少有1/3的部分其实与向量库无关。
举个例子,在我的AI管理知识库里,现在有以下问题:
用户:我最近在工作上感到非常疲惫,请问是什么问题导致的啊?
# 这里预期的答案是
1、副班长缺失对应数据;
2、员工精力不足对应数据;
3、能者多劳对应数据;
…
在这个场景下,是可以通过、也可以不通过向量库做实现的,端看哪种策略实现效果好。
只不过,我们这里并不讨论方案,我们只说指标,那么就是直接召回率:
- 在前 K 条结果里,命中至少一个标准文档/段落的比例;
- 对一些复杂场景,可以看多个目标(比如一个问题要命中 2 篇指南才算合格);
这里特别提一点的是,要问题要覆盖真实分布,也就是我们在做评测数据集的时候要全面一些,既要有 FAQ,也要有长难问题、模糊表述、带错别字的问题,不然很可能测试效果很好,一到真实环境就完犊子。
举个例子,在类似表达中,测试结果要一致:
“肾结石的检查项目有哪些?”
“查肾结石一般要做哪些检查?”
“肾结石要做啥检查啊?”
上述问题,都需要指向相同答案。
二、关系链
简单的RAG系统一般处理到第一步就完事了,但稍微复杂的RAG就要面临关系链的问题,用户的问题中,必须将与之关联的信息正确的拿出来,如果拿不出来,那也不行。举个例子:
用户:我得了肾结石,一分钟给我所有的信息!
# 这里就不能只给肾结石基础信息,结合语境所有的信息都需要给出
肾结石的检查项目…
肾结石的症状表现…
肾结石的缓解办法…
肾结石的治疗方案…
关于如何测试,依旧与上面类似:结合实际项目要完成的任务,给出正确的测试数据集。
三、生成评估
前面两部分保证的是:喂给模型的东西靠谱。
在数据正确的情况下,一般输出不会有太大的毛病,但我也确实遇到了正确的输出拿不到正确输出的情况。
从生产要求来说,输出评估要看三点:
- 真不真实,有没有乱编、有没有脱离证据;
- 好不好用,有没有真正解决用户任务;
- 安不安全,尤其是医疗这种高风险场景;
现在阶段对模型最高的要求就是:CoT + 可溯源,也就是模型提示词部分要严格要求必须“像我这样思考”,可溯源的话是每句话都要有其出处。比如:
建议您优先进行 B 超检查,必要时考虑非增强 CT。【指南-检查章节-第3条】
这里基本的只能使用训练数据集,但复杂的部分就必须引入人工测评了,总之要做好评估与评测必须引入专门的团队:

最后进入产品体系测评规则逻辑了:
产品体系的评估指标
以之前我们做的医疗AI产品为例,老板乃至用户是一点都不关注产品的技术参数的,他们关心的是具体的产品表现,比如对于诊断AI产品而言,以下几个参数就很重要:
一、疾病覆盖,这个医疗AI产品,到底覆盖了多少疾病,他的有效诊断边界是什么,这背后直接回映射到其基础知识库;
二、智能化(多模态),要知道很多疾病都有“多模态”的需求,这个也是需要被覆盖的,比如眼科的看眼睛、肾结石的查体、乃至各种影像报告检查,这块产品首先是是否支持,其次是支持得怎么样,都需要具体的数据;
三、准确率,在上述基础之下,才是具体AI诊断的准确率,要知道这个准确率可不是随便给的,要通过专家评议机制与真实医生对标测试,要求极为苛刻;
四、效率,再准确率之下,还需要考虑的是诊断效率,效率至少包括两方面,第一是实际诊断效率,是1分钟确诊还是10分钟确诊,诊断时长也可以说明医生(AI)水平高低;第二个是成本效率,如何用更低成本的检查、药物解决患者实际问题,这也是需要考察的;
至此,大家应该清晰一套完整的产品口径的评估指标大概长什么样了,其意义巨大,他可以指导后续产品迭代方向。
至于如何评测,因为不是今天的重点并且复杂度较高,今天就不扩展,重点一句话是:评测团队(模型评测)。
为让各位对产品体系的评估指标有更多的了解,这里再举个例子:
HealthBen
OpenAI之前推出的AI健康系统评估标准HealthBench,其内有来自60个国家/地区的262位医生合力打造的5000个真实医疗对话场景,用于评估AI模型在医疗领域的性能和安全性。
也就是说:OpenAI提出了一套用于评估医疗AI安全有效的标准体系。

只不过,这种事情多半是有点扯的,因为每一个提出评估模型的团队,特别是基座模型团队,完全可以基于问题做特别训练,俗称刷榜,这里的意思是:后面发出的模型一定比前面的强,但是不是真的强就不知道了…
但无论如何,只要能建立一套真的好用的AI医生评价体系,这件事是功德无量的
所以,这个测试方法长什么样,又是如何进行的呢?
一个 HealthBench 示例包含一段对话,以及医生针对该对话编写的评分细则。基于模型的评分器会按照每条细则为模型回复打分:

也就是说,每条模型回复都会依据针对该对话量身定制的评分量表进行打分。具体而言,每个评测样例包含:
- 对话:由模型与用户的若干消息组成,并以一条用户消息收尾;
- 评分细则:说明在该对话情境下,回复应当被奖励或惩罚的行为属性;
评分细则的内容既可以是必须提及的具体事实(例如应服用何种药物及剂量),也可以是期望的行为要素(例如询问用户更多膝盖疼痛细节,以便获得更精准的诊断)。
而HealthBench 包含 5000 个评测样例,每个样例由一段对话和一组评分标准(rubric criteria)组成。
具体再来看看其测试数据来源:
- 合成对话(主要),与医师合作,首先列举在评测中应覆盖的重要场景;
- 医师红队数据(次要),来自医师对大模型在医疗场景中的“红队攻击”测试 (Pfohl 等, 2024),聚焦模型薄弱或回答不当的提问;
- HealthSearchQA 改写,HealthSearchQA 是 Google 发布的高频健康搜索问答数据集 (Singhal 等, 2023);
……
以上就是OpenAI官方给出的优良案例,他已经涵盖了完整的模型/AI产品评测路径,包括标准构建、数据集构建、测试方式等,大家可以好好感悟下,逻辑上他比技术部分的内容会重要很多,而且这也是面试时候可以降维打击的说法。
结语
回到开头那个面试题:如何评估 RAG 的效果?
真正容易翻车的,首先是说不出来指标,其次是只会说指标。
如果只盯着召回率、准确率这些技术词,最多说明你用过 RAG。

完整的视角的话,需要包含三个点:系统内部怎么评估:检索对不对、关系链拉得全不全、生成真不真、安不安全;产品视角怎么评估:业务边界、覆盖范围、多模态、准确率、效率这些老板真正关心的东西;评测体系怎么搭:像 HealthBench 那样,从标准 → 数据集 → 评分细则 → 人工+自动评估,一整套闭环;
那你在面试官眼里,就不再是“会用 RAG 的工程师”,而是能把 RAG 产品真正推向生产的人。
最后特别提一句:从定义上,向量库完全不是 RAG 的必需品;从工程上,它只是众多检索策略里的一种,而且经常被滥用。
以检索为例:
- 关键词倒排(BM25 / ES / Solr)
- 结构化 SQL / 图数据库查询
- KV 映射、规则匹配
- API 调用(比如查内部业务系统)
- 向量检索 / 混合检索…
没有一个词写着必须用向量,你用什么手段把“对的东西”找出来,本质上是工程选型,不是概念限制。
如果这样已经面试失败,只能说明面试官忌惮你!!!
本文由人人都是产品经理作者【叶小钗】,微信公众号:【叶小钗】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!

起点课堂会员权益



