RAG讣告？不，是深度进化：Agent与长上下文重塑AI知识检索的未来格局

TL;DR：

“RAG已死”的论调实则宣告了初级、朴素RAG时代的终结。长上下文窗口与AI Agent的崛起，并非取代RAG，而是将其推向了更深层次的“智能体检索”与“上下文工程”范式，预示着AI知识获取方式从碎片化搜索转向主动性调查，重塑了AI应用开发的底层逻辑与商业版图。

在技术浪潮汹涌的今天，“XX已死”的论调层出不穷。从“搜索已死”到“Prompt已死”，如今这股辩论的矛头直指RAG（检索增强生成）。向量数据库Chroma创始人兼CEO Jeff Huber更是旗帜鲜明地提出“RAG已死，上下文工程当立”，主张以更宏大的上下文工程框架取代对“RAG”这一术语的狭隘依赖。这不仅是一场技术路线之争，更深层地预示着AI应用架构、商业模式乃至我们与信息交互方式的根本性变革。

技术范式变迁：从朴素RAG到智能上下文工程

RAG作为一种“外挂”知识库的解决方案，自2022年起迅速成为解决大语言模型（LLM）输入长度有限问题的行业标准，如最初GPT-3.5的4K token限制。其核心逻辑是将庞大文档切分成小块，通过向量嵌入和相似度搜索，找到与用户问题最相关的片段，再喂给LLM生成答案。然而，这种朴素的RAG（Naive RAG）模式，正面临前所未有的挑战。

从技术深层剖析，朴素RAG的“原罪”主要体现在几个方面：

切分的困境：将文档强制切块，往往会割裂表格的标题与数据、解释与上下文，导致语义丢失和信息碎片化。例如，一份复杂的SEC 10-K财报若被机械切分，其财务数据与相关解释可能被硬生生分离，使得LLM难以进行连贯的推理。
检索的噩梦：纯粹的向量搜索在专业领域常常失灵。嵌入模型难以区分专业术语的细微差别，如“收入确认”（会计政策）与“收入增长”（业务表现）。Fintool创始人Nicolas Bustamante举例称，查询“公司的诉讼风险”，RAG可能只返回明确提及“诉讼”的段落，而忽略了“或有负债”、“后续事项”等隐含在其他部分的关键信息，导致风险评估结果相差十倍¹。
无尽的“补丁”：为了弥补向量搜索的不足，混合搜索、重排序（reranker）等复杂环节被不断加入，这导致延迟飙升、成本叠加，系统复杂性指数级增长，形成“级联失败”的风险。
沉重的基础设施负担：维护生产级的向量数据库和检索系统，涉及TB级索引、高昂内存成本及耗时耗力的优化工作。

然而，两大颠覆性技术进展——LLM长上下文窗口的崛起和AI Agent能力的进化——正在从根本上动摇朴素RAG的基石。Claude Sonnet 4达到200K、Gemini 2.5达到1M，甚至Grok 4-fast达到2M token的上下文窗口，使得LLM能够直接“读入”整份财报、整个代码库，甚至多份复杂文档。当模型能够通读全书时，仅仅依赖几张书签（切块）显然已不合时宜。

与此同时，具备规划、推理和工具使用能力的AI Agent则带来了更深远的变革。传统的RAG是“检索”，而Agent引入的是“调查”范式¹。Agent可以：

直接访问，而非预索引：Agent无需预处理和索引，能够实时在文件系统上运行grep、glob等工具进行高速查找，彻底消除索引延迟。
完整加载，而非碎片：利用长上下文窗口，Agent能将相关文档完整加载，进行深度推理，避免了上下文被物理割裂的问题。
逻辑导航，而非相似度匹配：Agent像人类分析师一样，能够在完整文档中进行逻辑跳转和交叉引用，构建完整的理解链条。例如，在财报中发现“参见附注12”，Agent会主动导航至附注12，再根据其内容跳转到其他相关章节，进行关联分析。

这股变革催生了一个新兴概念——上下文工程（Context Engineering）。Jeff Huber将其定义为：在任何LLM生成步骤中，精确决定上下文窗口应包含何种信息的任务²。它超越了简单的提示词工程或传统RAG，旨在构建一个动态系统，为LLM提供最准确、最合适的背景信息和工具，以优化其性能。同时，研究也发现，简单的长上下文并非万能。Chroma公司的Kelly Hong提出了“上下文腐烂”现象：随着输入上下文增长，尤其存在模糊信息和“干扰项”时，大模型性能会显著下降³，这更凸显了精巧上下文工程的重要性。

RAG的涅槃：从单一组件到智能骨干

尽管朴素RAG面临挑战，但其核心思想——为LLM提供精准、可靠的外部知识——的需求是永恒的。因此，业界的主流观点并非“RAG已死”，而是“RAG正在深度进化”。它正在从一个独立的应用范式，演变为一个更强大、更智能的系统组件，成为智能体（Agent）不可或缺的“知识骨干”。

LlamaIndex的博客文章《RAG is dead, long live agentic retrieval》便提供了一种演进主义视角，描绘了RAG从基础走向智能体驱动检索的四个阶段³：

基础的“Top-k”检索：将文档切块、嵌入、向量搜索。
引入轻量级Agent——自动路由模式：Agent分析用户查询，智能判断采用按区块、按文件名或按内容检索，实现单一知识库内的策略自动化。
扩展至多个知识库——复合检索API：通过Agent层智能路由，整合并查询为不同类型文档（如财报、PPT）优化的独立索引，再进行结果重排。
构建完全由Agent驱动的知识系统：形成双层Agent架构。顶层Agent（复合检索器）根据查询意图将任务分发至相关子知识库，子索引层Agent（自动路由模式）则在内部决定最合适的检索方法。这种分层协作实现了高度动态和智能化的响应。

资深机器学习工程师Hamel Husain则在《Stop Saying RAG Is Dead》中强调，RAG正进化为一门严肃的工程学科³。他指出，我们告别的只是幼稚的单向量语义搜索，正如用CSS升级HTML一样，我们正在用更先进的检索技术升级RAG。文章重新定义了RAG的评估范式，不再是“找到排名第一的正确答案”，而是关注覆盖率（是否找到所有证据）、多样性（是否高效避免冗余）和相关性（是否切题）。

更值得关注的是，新一代检索模型本身正在具备“思考”能力：

指令感知检索器：如Promptriever，能够理解并执行复杂指令（如“用隐喻寻找关于数据隐私的文档”），发现传统模型无法触及的结果。Rank1等reranker模型甚至能生成明确的推理链来判断相关性。
无损压缩检索：如ColBERT的“延迟交互”模型，不再将整个文档压缩成一个向量，而是保留每个token的向量表示，这使得小型模型在推理密集任务上超越了参数量更大的LLM，并借由PyLate等开源库变得易于使用。

此外，为同一份数据创建多种表示（Multiple Representations），并利用LLM Agent作为“路由器”将其导向最合适的“地图”进行查询，正成为架构进化的重要方向。这如同为同一个地方准备地形图、交通图等多张不同功能的地图，体现了系统对用户意图更精细的理解和响应能力。

商业格局与投资逻辑：新赛道与旧基础设施的重塑

“RAG已死”的论调，以及随之而来的技术范式变迁，正在深刻影响AI产业的商业格局和投资逻辑。

AI基础设施的战略转移：向量数据库等RAG核心组件的提供商，其定位将从“主导检索”转向“服务智能体”。它们需要进化为提供更复杂、更灵活的数据表示和管理服务，以适应Agentic系统多元化的数据需求。例如，LlamaIndex通过LlamaCloud的检索服务，系统性地展示了如何构建Agent驱动的高级检索系统，这正是基础设施提供商适应新趋势的体现。
AI应用开发的门槛与机遇：对于AI应用开发者而言，简单拼凑RAG的时代已经结束。**掌握“上下文工程”**将成为AI工程师的核心技能⁴⁵。开发者需要根据具体场景灵活组合长上下文、Agent、高级RAG等技术，实现效率与精度最佳平衡：
- 对于海量、非结构化数据的快速筛选（如智能客服、企业知识库初筛），由Agent驱动的、高度工程化的高级RAG系统仍是最佳选择。
- 对于少量、结构复杂文档的深度推理分析（如财报分析、法律合同审查），“长上下文窗口 + Agent调查”范式将展现碾压性优势。
商业模式的创新空间：围绕“上下文工程”和“Agentic Retrieval”将催生新的SaaS平台和解决方案。这些平台可能提供：
- 多模态、多表示的数据摄取和管理服务。
- 高级Agent编排和路由框架。
- 专门针对长上下文优化的上下文管理工具，以应对“上下文腐烂”。
- 集成推理感知和无损压缩的智能检索API。
资本市场的重新估值：投资者将更加关注能够提供全面、灵活“上下文工程”解决方案的公司，以及在Agent能力和长上下文模型方面具备领先优势的LLM公司。单纯提供基础向量搜索或简单RAG方案的公司，其市场价值可能被重新评估。

对人类智识与AI协作的哲学审视

RAG的深度进化不仅仅是技术迭代，更是对AI与人类智识协作方式的深刻反思。

信息处理的范式跃迁：从人类依赖预先分类、索引的信息检索（如传统搜索引擎或朴素RAG），向AI主动进行“调查”、理解、导航并整合信息的新模式迈进。这种转变模拟了人类专家在复杂问题解决时的主动求索过程，而非被动接收碎片信息。它挑战了我们对于“知识获取”和“信息理解”的传统定义。
AI自主性的边界扩展：Agent的崛起，尤其是能够进行逻辑导航和策略性信息收集的Agent，模糊了AI“工具”与“合作者”的界限。它们不再仅仅是执行指令，而是能在一定程度上“理解”并“策略性地”收集信息以达成目标。这引发了对AI决策链条、问责机制以及人类在高度自动化协作中角色的深层哲学思考。
效率与深度的平衡艺术：长上下文窗口提供了惊人的信息容纳能力，但“上下文腐烂”现象提醒我们，效率并非简单的“越大越好”。如何在高信息容量与精准信息提取之间找到最佳平衡点，考验着AI系统设计的智慧。这反映了人类在面对海量信息时，既需要广度理解，更需要深度洞察的认知需求。未来的AI系统将是这种平衡艺术的体现，既能“读万卷书”，又能“行万里路”，更重要的是能够“思考”并“消化”这些信息。

总而言之，初级的、朴素的RAG确实已成为历史。然而，RAG所代表的为LLM提供外部知识的核心需求依然存在，并且正在以更智能、更集成的形式重塑AI知识处理的未来。未来的图景将是Agent与长上下文窗口协同作用下的“上下文工程”时代，其中，RAG不再是独立的核心架构，而是Agent工具箱中一个强大且高度进化的组件。对于开发者和企业而言，关键在于理解不同技术范式的优劣，并根据具体的应用场景，灵活、智慧地将它们组合成最高效、最可靠的解决方案，以应对AI时代信息洪流中的挑战与机遇。

引用

The RAG Obituary: Killed by Agents, Buried by Context Windows·Nicolas Bustamante（2025/10/19）·检索日期2025/10/20 ↩︎ ↩︎
RAG 已死，上下文工程当立-腾讯新闻 - QQ.COM·腾讯新闻·佚名（检索日期2025/10/20） ↩︎
长上下文窗口、Agent崛起，RAG已死？ - 新浪财经·新浪财经·机器之心（2025/10/19）·检索日期2025/10/20 ↩︎ ↩︎ ↩︎
上下文工程：超越RAG，大模型应用开发的未来方向·CSDN·开发者社区·佚名（检索日期2025/10/20） ↩︎
提示词工程、RAG之后，LangChain：上下文工程开始火了！ - 腾讯云·腾讯云·佚名（检索日期2025/10/20） ↩︎