RAG已死？——从检索增强到记忆架构的范式迁移

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

RAG已死？——从检索增强到记忆架构的范式迁移

非常AI小记

2026-03-30

1 评论 1314 浏览 5 收藏

24 分钟

RAG技术正经历从被动检索到主动认知的范式迁移。随着AI模型长上下文窗口的扩张，关于RAG是否会被淘汰的争论愈演愈烈。本文深度剖析了Agentic RAG与Graph RAG的技术突破，揭示了记忆系统与检索架构的融合趋势，并前瞻性提出上下文引擎这一全新概念，为AI产品的知识管理架构指明方向。

引言：一个被反复宣判死亡的技术

从2023年起，每当有新模型将上下文窗口扩大一个数量级，社交媒体上就会出现一轮”RAG已死”的声浪。GPT-4 Turbo把窗口推到128K时，有人说RAG要退场了；Claude 3把窗口扩到200K时，这个论断又被重复了一遍；等到Gemini 2.5 Pro和Llama 4 Scout把上下文推进到10M token的量级，这场葬礼的规模达到了前所未有的高潮。

这不是第一次，也不会是最后一次。但这种周期性的死亡宣判本身，恰恰说明RAG触碰到了一个真实的结构性矛盾——它的存在意义，始终与模型能力的边界深度绑定。每一次模型能力的跃升，都会重新逼问这个问题：我们还需要外部检索系统吗？

本文不打算给出”RAG死了”或”RAG没死”的简单结论。这个问题本身就是一个错误的二元框架。真正值得追踪的，是一场正在发生的范式迁移：检索，正在从一个独立的工程模块，演变为AI系统认知基础设施的一部分。这场演变的终点，不是RAG的消亡，而是它以一种更深层、更自主的形态被重新整合进整个AI产品体系。

RAG的黄金时代：Engineering派的完美武器

RAG诞生的历史背景

RAG（Retrieval-Augmented Generation，检索增强生成）由Meta AI于2020年在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中正式提出。它的诞生，是对早期语言模型两大顽疾的直接回应：其一是知识截止问题，模型的训练数据有时间边界，无法感知训练后发生的世界；其二是幻觉问题，模型在不确定时倾向于”编造”看似合理的答案，而非承认无知。

RAG的解法在概念上极为优雅：与其让模型把所有知识都”记”在参数里，不如在需要时”查阅”外部知识库，把相关内容注入上下文，再让模型基于这些真实依据生成答案。这与人类使用参考书的方式高度吻合，也与Engineering派”确定性优先”的哲学天然契合——把一个模糊的AI问题，转化为一个结构清晰的数据工程问题。

Naive RAG的工程全貌

一套经典的Naive RAG管道，是Engineering派工程美学的集中体现。整个流程分为两个阶段：离线构建阶段负责将原始文档解析、切块（Chunking）、向量化（Embedding）并存入向量数据库；在线检索阶段则在用户发起查询时，将查询向量化，在数据库中检索TopK个最相似的文本块，将其拼接为上下文后注入Prompt，最终由LLM生成答案。

每个环节都有明确的输入输出规范，整个系统行为可预期、可审计、可回滚。分块策略有固定大小、语义分块、递归分块等多种选择；检索算法有稀疏检索（BM25）、稠密检索（ANN向量搜索）和混合检索；后处理阶段还有Rerank精排来提升召回质量。这套管道在2022至2023年间几乎成为企业AI应用的标准基础设施。

RAG的真实局限

然而Naive RAG的天花板很快显现。这些局限不是调参能解决的，而是架构层面的结构性缺陷。

固定分块策略导致语义断裂——一个完整的论证跨越多个chunk时，任何单一chunk都无法提供足够的上下文；向量相似度检索本质上是语义近邻搜索，对于需要逻辑推理的问题（”A导致B，B导致C，所以A与C的关系是什么”）几乎无能为力；多跳问题（multi-hop reasoning）需要跨越多个文档片段的链式推理，单次检索的架构根本无法支撑；更根本的是，整个系统对检索结果是无条件信任的——它不会质疑检索结果的可信度，不会在结果不足时主动追加检索，也不会在发现矛盾时进行验证。

这些缺陷的共同根源在于：Naive RAG是一个被动的、无状态的、单次执行的管道，而真实世界的复杂问题需要的是主动的、有状态的、迭代式的信息获取能力。

长上下文的冲击：第一轮死亡宣判

从8K到10M：上下文窗口的暴力扩张

模型上下文窗口的扩张速度，是过去三年AI领域最令人目眩的技术曲线之一。从GPT-3.5的4K token，到GPT-4 Turbo的128K，到Claude 3的200K，到Gemini 1.5 Pro的1M，再到2025年Gemini 2.5 Pro与Llama 4 Scout双双达到10M token——这意味着你可以把一整部《红楼梦》的文本塞进上下文，还绰绰有余。

直觉上的推论显而易见：当你可以把整个知识库都塞进上下文，还需要检索系统吗？这个问题的杀伤力在于它听起来非常合理。

长上下文 vs RAG：一场并非非此即彼的对比

ICML 2025发布的LaRA基准测试对11个主流LLM进行了系统评估，结论颇为清醒：长上下文LLM在问答任务上整体优于RAG，但没有”银弹” ——最优选择高度依赖模型能力、上下文类型、任务性质和检索特征的复杂交互。对于动态更新的数据集，RAG仍具有显著优势；对于需要深度跨文档推理的静态语料，长上下文更胜一筹。

更关键的是经济账。在生产规模下——每天数千乃至数万次查询——把完整知识库塞入每个请求的成本是灾难性的。长上下文推理的计算复杂度随token数量呈超线性增长，对于大多数企业而言，这条路在经济上根本不可持续。

两者的真实关系：不是替代，而是嵌套

最成熟的企业级系统已经给出了答案：用RAG从海量语料中精准召回候选内容，再用长上下文窗口在候选内容上做跨文档深度推理。长上下文是RAG管道内部的一个增强组件，而非RAG的替代者。两者的关系是嵌套而非竞争——RAG解决的是”从TB级数据中找到相关的KB级内容”的问题，长上下文解决的是”在KB级内容中做深度理解”的问题。把这两个问题混为一谈，才是每一轮”RAG已死”论断的根本谬误。

Agentic RAG：当检索开始自主决策

从被动管道到主动智能体

Naive RAG的本质是被动的：用户查询 → 固定检索 → 固定生成，整个流程是单向的、一次性的。Agentic RAG打破了这一线性结构，核心变革在于：模型获得了对检索过程本身的自主控制权。

何时检索、检索什么、是否相信检索结果、是否需要追加检索、如何分解复杂问题为可检索的子问题——这些决策权从工程师手中转移到了模型。检索不再是一个固定的前置步骤，而是成为模型推理过程中可以随时调用的认知工具。

Agentic RAG的核心组件矩阵

一个成熟的Agentic RAG体系通常包含多个协作智能体，各司其职又相互配合。查询增强智能体负责理解并扩展用户意图，将模糊的自然语言问题转化为多角度的检索策略；规划师智能体将复杂任务分解为有序的检索子步骤，决定先查什么、后查什么；反思与验证智能体是整个体系的质量守门人，评估检索结果的可信度与充分性，在发现矛盾或信息不足时触发追加检索；深度研究型智能体（即DeepResearch范式的核心）执行多轮迭代检索，模拟人类研究员的探索行为。

这套架构从根本上改变了RAG的性质：它不再是一个确定性的数据管道，而是一个具有自我调节能力的检索生态系统。

Graph RAG：为知识注入结构

与Agentic RAG平行演化的另一条路径，是微软开源的GraphRAG。它代表了Engineering派对Naive RAG局限的工程回应：与其让模型更聪明，不如让知识的组织方式更接近人类认知的结构。

GraphRAG将文档知识构建为图结构，实体（Entity）作为节点，实体间的关系作为边，形成一张可以被精确遍历的知识网络。当用户提出多跳问题时，系统可以沿着图的边进行路径搜索，而非依赖模糊的语义相似度。这使得”A公司的CEO与B公司的创始人有什么共同投资项目”这类需要多步推理的问题，变得在架构层面可以被系统性地处理。

记忆架构的崛起：第二轮范式迁移

RAG与记忆的根本区别

这是整篇文章最核心的概念辨析，也是当前AI产品团队最容易犯的认知错误。

RAG的本质是无状态的按需检索。每一次查询都是全新的开始，系统不记得你昨天问了什么，不知道你上个月做了哪些决策，不了解你的偏好与习惯。它检索的是客观存在于知识库中的静态信息，与”你是谁”无关。

记忆系统的本质则截然不同，它是跨会话的状态积累。它记录的不是客观知识，而是关系、偏好、历史与演化 ——你曾经做过什么决定，你倾向于什么风格，你的目标如何随时间变化。记忆具备时间感、可衰减、可合并与可遗忘的特征，边际成本随复用而下降。

实践表明，缺乏记忆的Agent行为是”反应式”的——每次对话都在重新建立基础认知；而引入记忆后，系统开始呈现”认知动量”，能够将早期判断与新证据连接，显著提升长期决策质量。把RAG当作记忆的替代，是当前AI产品团队最常见的结构性误判，其结果是高投入、低复利的路径依赖。

记忆的分层架构

借鉴认知科学对人类记忆系统的分类框架，成熟的AI记忆系统通常分为四个层次，各自承担不同的认知功能：

情景记忆存储具体的对话片段与交互事件，是最直接的个性化来源

语义记忆提炼抽象的用户画像与背景知识，形成对”这个用户是谁”的稳定认知

程序记忆记录成功的操作模式与工作流，让Agent在处理同类任务时越来越高效

时间记忆则赋予系统时效感，确保动态变化的信息不会以过期状态持续影响决策

这四层记忆共同构成了Agent从”聊天工具”走向”行动系统”的认知基础。

2025年记忆框架的产业格局

2025年，记忆框架领域已出现清晰的产品分层。

Mem0 以混合向量+图结构的技术路线，结合托管化服务的部署便利性，在生产环境中实现了约26%的准确率提升与91%的延迟降低，成为效率导向型团队的首选，最快15分钟即可完成接入。

Zep 进一步引入多层记忆与DMR（Dynamic Memory Retrieval）基准，强化了可衡量性与合规能力，但系统复杂度的上升也带来了更高的运维成本。

LangGraph 将记忆嵌入工作流状态机，适合多Agent协作场景，但在纯对话召回上仍依赖额外优化。

Letta 与 A-MEM 更偏向研究取向，前者强调自主记忆调度，后者探索自演化图结构，但在稳定性与规模化成本上仍面临挑战。

值得警惕的是，框架选择并不存在”最优解”，高度依赖现有技术栈、延迟容忍度、合规要求与产品阶段。盲目跟风最新的记忆框架，往往比坚持用好Naive RAG的代价更高。

上下文引擎：融合终点的新范式

从RAG引擎到上下文引擎

RAGFlow等团队在2025年提出了一个更具前瞻性的概念，代表了这场范式迁移的阶段性终点： Context Engine（上下文引擎）。

它不再是单纯的文档检索管道，而是Agent的统一上下文装配层。其核心职责是：理解Agent的当前意图，动态协调对文档库（RAG）、记忆库（Memory）、工具库（Tools/Skills）的检索请求，对多路来源的结果进行融合、去重、排序和格式化，最终打包成LLM就绪的上下文。

这一演变重新定义了RAG中”R”（Retrieval）的内涵——从”检索文档”扩展为”检索一切Agent所需的上下文数据”。检索的对象不再局限于文档，而是扩展到了企业内部数据、工具元数据、历史交互记录、实时业务状态的全域。

MCP 与Skills：检索边界的进一步扩展

随着MCP（Model Context Protocol）协议的普及和Skills体系的兴起，检索的边界正在进一步扩展，触及一个此前被忽视的维度：工具本身也需要被检索。

当一个企业的Agent生态中存在数百乃至数千个MCP工具时，如何让Agent在正确的时机调用正确的工具，本身就是一个检索问题——需要对工具的元数据、使用说明、适用场景进行语义索引，并在Agent规划阶段动态召回。这意味着RAG不仅服务于知识问答，还成为了工具调度的基础设施。

未来的多路检索将同时覆盖文档、记忆、工具元数据、代码库（以AST图结构为索引）等多个维度。RAG不会消失，而是成为更底层、更通用的检索基础设施，其上层的应用形态会持续演化。

上下文引擎是Harness派与Engineering派融合最自然的落点，也是理解这场范式迁移的最佳视角。

Engineering派负责构建可靠的数据层：文档的清洗与索引、记忆的结构化存储、工具的元数据管理、多路检索的接口规范。这部分工作需要极强的工程严谨性，任何一个环节的质量下降都会直接影响Agent的决策质量。

Harness派则负责在这个数据层之上释放模型的自主性：让Agent自己决定何时查文档、何时调用记忆、何时搜索网络、如何综合多路信息形成判断。这部分的价值来自于对模型推理能力的充分信任与合理授权。

系统的稳定性来自Engineering，系统的智能来自Harness。两者不再是对立的哲学，而是在上下文引擎这一架构层面找到了各自的分工。

真正的问题：内化还是外化？

模型会把外部知识管道”吃掉”吗？

这是整篇文章最核心的哲学追问，也是每一轮”RAG已死”论断背后真正想问的问题。

历史上，许多曾经需要外部工程模块实现的能力，最终都被内化进了模型本身。早期NLP管道中独立存在的分词器、词性标注器、命名实体识别模块、情感分类器，如今都已成为大模型的内置能力。知识图谱曾被视为AI理解世界的必要外部结构，如今模型的参数本身就隐式编码了大量关系知识。那么，RAG会是下一个被内化的模块吗？

内化的边界在哪里

内化有其天然的、不可逾越的边界，这些边界决定了外部检索系统在相当长的时间内不会消失。

私有数据的边界是最根本的限制。企业的内部文档、用户的私人数据、行业的专有知识，既无法也不应该被内化进公共模型。训练一个包含所有企业私有知识的专属模型，在成本和时效性上都是不现实的。实时性的边界同样无法逾越——模型训练是一个有截止日期的过程，而真实世界的知识在持续更新。金融数据、新闻事件、产品信息的实时变化，只能通过外部检索来弥合。合规与可审计性的边界在医疗、法律、金融等强监管行业尤为关键——当一个AI系统需要为其输出提供可追溯的知识来源时，外部知识管道的独立性是不可替代的。

真正被内化的，是”决策”而非”数据”

这是理解这场范式迁移最精准的视角：被内化的不是知识本身，而是关于如何获取知识的决策能力。

Naive RAG时代，”何时检索、检索什么、如何评估检索结果”这些元认知决策由工程师通过硬编码逻辑实现。Agentic RAG时代，这些决策权转移到了模型。模型越来越擅长判断当前上下文是否充分、现有信息是否可信、追加检索的收益是否值得——这些元认知能力的内化，才是真正改变RAG系统设计逻辑的力量。

外部的数据永远在那里，需要被检索；但谁来决定如何检索，这个问题的答案正在从工程师转向模型本身。这一转变，是整场范式迁移最深层的本质。

结语：范式迁移的真正意义

RAG没有死，但”RAG等于向量检索加文档注入”的时代确实结束了。

它正在演变为一个更广义的概念—— Agent认知基础设施的数据层。这个数据层整合了文档检索、记忆管理、工具调度等多个维度，由上下文引擎统一协调，服务于Agent在复杂任务中的自主决策。它不再是一个独立的产品形态，而是AI应用系统的底层水电煤。

这场范式迁移的深层意义在于： AI产品的竞争重心，正在从”用什么模型”转移到”如何为模型构建记忆、上下文与知识的完整生态”。模型能力的同质化趋势使得底层基础设施的质量越来越成为差异化的真正来源。一个拥有完善上下文引擎的AI应用，与一个仅仅调用同款模型API的竞争对手之间的差距，会随着时间的推移越来越大。

Engineering派的工程严谨性与Harness派对自主性的信任，在上下文引擎这一架构层面找到了它们真正的融合点。前者确保数据层的可靠与可控，后者确保模型能够在这个可靠的基础上充分发挥其推理与决策能力。这不是两种哲学的妥协，而是一种更成熟的系统观的自然涌现。

本文由 @非常AI小记原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Pixabay，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App