RAG讣告?不,是深度进化:Agent与长上下文重塑AI知识检索的未来格局

温故智新AIGC实验室

TL;DR:

“RAG已死”的论调实则宣告了初级、朴素RAG时代的终结。长上下文窗口与AI Agent的崛起,并非取代RAG,而是将其推向了更深层次的“智能体检索”与“上下文工程”范式,预示着AI知识获取方式从碎片化搜索转向主动性调查,重塑了AI应用开发的底层逻辑与商业版图。

在技术浪潮汹涌的今天,“XX已死”的论调层出不穷。从“搜索已死”到“Prompt已死”,如今这股辩论的矛头直指RAG(检索增强生成)。向量数据库Chroma创始人兼CEO Jeff Huber更是旗帜鲜明地提出“RAG已死,上下文工程当立”,主张以更宏大的上下文工程框架取代对“RAG”这一术语的狭隘依赖。这不仅是一场技术路线之争,更深层地预示着AI应用架构、商业模式乃至我们与信息交互方式的根本性变革。

技术范式变迁:从朴素RAG到智能上下文工程

RAG作为一种“外挂”知识库的解决方案,自2022年起迅速成为解决大语言模型(LLM)输入长度有限问题的行业标准,如最初GPT-3.5的4K token限制。其核心逻辑是将庞大文档切分成小块,通过向量嵌入和相似度搜索,找到与用户问题最相关的片段,再喂给LLM生成答案。然而,这种朴素的RAG(Naive RAG)模式,正面临前所未有的挑战。

从技术深层剖析,朴素RAG的“原罪”主要体现在几个方面:

  • 切分的困境:将文档强制切块,往往会割裂表格的标题与数据、解释与上下文,导致语义丢失和信息碎片化。例如,一份复杂的SEC 10-K财报若被机械切分,其财务数据与相关解释可能被硬生生分离,使得LLM难以进行连贯的推理。
  • 检索的噩梦:纯粹的向量搜索在专业领域常常失灵。嵌入模型难以区分专业术语的细微差别,如“收入确认”(会计政策)与“收入增长”(业务表现)。Fintool创始人Nicolas Bustamante举例称,查询“公司的诉讼风险”,RAG可能只返回明确提及“诉讼”的段落,而忽略了“或有负债”、“后续事项”等隐含在其他部分的关键信息,导致风险评估结果相差十倍1
  • 无尽的“补丁”:为了弥补向量搜索的不足,混合搜索、重排序(reranker)等复杂环节被不断加入,这导致延迟飙升、成本叠加,系统复杂性指数级增长,形成“级联失败”的风险。
  • 沉重的基础设施负担:维护生产级的向量数据库和检索系统,涉及TB级索引、高昂内存成本及耗时耗力的优化工作。

然而,两大颠覆性技术进展——LLM长上下文窗口的崛起和AI Agent能力的进化——正在从根本上动摇朴素RAG的基石。Claude Sonnet 4达到200K、Gemini 2.5达到1M,甚至Grok 4-fast达到2M token的上下文窗口,使得LLM能够直接“读入”整份财报、整个代码库,甚至多份复杂文档。当模型能够通读全书时,仅仅依赖几张书签(切块)显然已不合时宜。

与此同时,具备规划、推理和工具使用能力的AI Agent则带来了更深远的变革。传统的RAG是“检索”,而Agent引入的是“调查”范式1。Agent可以:

  • 直接访问,而非预索引:Agent无需预处理和索引,能够实时在文件系统上运行grepglob等工具进行高速查找,彻底消除索引延迟。
  • 完整加载,而非碎片:利用长上下文窗口,Agent能将相关文档完整加载,进行深度推理,避免了上下文被物理割裂的问题。
  • 逻辑导航,而非相似度匹配:Agent像人类分析师一样,能够在完整文档中进行逻辑跳转和交叉引用,构建完整的理解链条。例如,在财报中发现“参见附注12”,Agent会主动导航至附注12,再根据其内容跳转到其他相关章节,进行关联分析。

这股变革催生了一个新兴概念——上下文工程(Context Engineering)。Jeff Huber将其定义为:在任何LLM生成步骤中,精确决定上下文窗口应包含何种信息的任务2。它超越了简单的提示词工程或传统RAG,旨在构建一个动态系统,为LLM提供最准确、最合适的背景信息和工具,以优化其性能。同时,研究也发现,简单的长上下文并非万能。Chroma公司的Kelly Hong提出了“上下文腐烂”现象:随着输入上下文增长,尤其存在模糊信息和“干扰项”时,大模型性能会显著下降3,这更凸显了精巧上下文工程的重要性。

RAG的涅槃:从单一组件到智能骨干

尽管朴素RAG面临挑战,但其核心思想——为LLM提供精准、可靠的外部知识——的需求是永恒的。因此,业界的主流观点并非“RAG已死”,而是“RAG正在深度进化”。它正在从一个独立的应用范式,演变为一个更强大、更智能的系统组件,成为智能体(Agent)不可或缺的“知识骨干”

LlamaIndex的博客文章《RAG is dead, long live agentic retrieval》便提供了一种演进主义视角,描绘了RAG从基础走向智能体驱动检索的四个阶段3

  1. 基础的“Top-k”检索:将文档切块、嵌入、向量搜索。
  2. 引入轻量级Agent——自动路由模式:Agent分析用户查询,智能判断采用按区块、按文件名或按内容检索,实现单一知识库内的策略自动化。
  3. 扩展至多个知识库——复合检索API:通过Agent层智能路由,整合并查询为不同类型文档(如财报、PPT)优化的独立索引,再进行结果重排。
  4. 构建完全由Agent驱动的知识系统:形成双层Agent架构。顶层Agent(复合检索器)根据查询意图将任务分发至相关子知识库,子索引层Agent(自动路由模式)则在内部决定最合适的检索方法。这种分层协作实现了高度动态和智能化的响应。

资深机器学习工程师Hamel Husain则在《Stop Saying RAG Is Dead》中强调,RAG正进化为一门严肃的工程学科3。他指出,我们告别的只是幼稚的单向量语义搜索,正如用CSS升级HTML一样,我们正在用更先进的检索技术升级RAG。文章重新定义了RAG的评估范式,不再是“找到排名第一的正确答案”,而是关注覆盖率(是否找到所有证据)、多样性(是否高效避免冗余)和相关性(是否切题)。

更值得关注的是,新一代检索模型本身正在具备“思考”能力:

  • 指令感知检索器:如Promptriever,能够理解并执行复杂指令(如“用隐喻寻找关于数据隐私的文档”),发现传统模型无法触及的结果。Rank1等reranker模型甚至能生成明确的推理链来判断相关性。
  • 无损压缩检索:如ColBERT的“延迟交互”模型,不再将整个文档压缩成一个向量,而是保留每个token的向量表示,这使得小型模型在推理密集任务上超越了参数量更大的LLM,并借由PyLate等开源库变得易于使用。

此外,为同一份数据创建多种表示(Multiple Representations),并利用LLM Agent作为“路由器”将其导向最合适的“地图”进行查询,正成为架构进化的重要方向。这如同为同一个地方准备地形图、交通图等多张不同功能的地图,体现了系统对用户意图更精细的理解和响应能力。

商业格局与投资逻辑:新赛道与旧基础设施的重塑

“RAG已死”的论调,以及随之而来的技术范式变迁,正在深刻影响AI产业的商业格局和投资逻辑。

  • AI基础设施的战略转移:向量数据库等RAG核心组件的提供商,其定位将从“主导检索”转向“服务智能体”。它们需要进化为提供更复杂、更灵活的数据表示和管理服务,以适应Agentic系统多元化的数据需求。例如,LlamaIndex通过LlamaCloud的检索服务,系统性地展示了如何构建Agent驱动的高级检索系统,这正是基础设施提供商适应新趋势的体现。
  • AI应用开发的门槛与机遇:对于AI应用开发者而言,简单拼凑RAG的时代已经结束。**掌握“上下文工程”**将成为AI工程师的核心技能45。开发者需要根据具体场景灵活组合长上下文、Agent、高级RAG等技术,实现效率与精度最佳平衡:
    • 对于海量、非结构化数据的快速筛选(如智能客服、企业知识库初筛),由Agent驱动的、高度工程化的高级RAG系统仍是最佳选择。
    • 对于少量、结构复杂文档的深度推理分析(如财报分析、法律合同审查),“长上下文窗口 + Agent调查”范式将展现碾压性优势。
  • 商业模式的创新空间:围绕“上下文工程”和“Agentic Retrieval”将催生新的SaaS平台和解决方案。这些平台可能提供:
    • 多模态、多表示的数据摄取和管理服务。
    • 高级Agent编排和路由框架。
    • 专门针对长上下文优化的上下文管理工具,以应对“上下文腐烂”。
    • 集成推理感知和无损压缩的智能检索API。
  • 资本市场的重新估值:投资者将更加关注能够提供全面、灵活“上下文工程”解决方案的公司,以及在Agent能力和长上下文模型方面具备领先优势的LLM公司。单纯提供基础向量搜索或简单RAG方案的公司,其市场价值可能被重新评估。

对人类智识与AI协作的哲学审视

RAG的深度进化不仅仅是技术迭代,更是对AI与人类智识协作方式的深刻反思。

  • 信息处理的范式跃迁:从人类依赖预先分类、索引的信息检索(如传统搜索引擎或朴素RAG),向AI主动进行“调查”、理解、导航并整合信息的新模式迈进。这种转变模拟了人类专家在复杂问题解决时的主动求索过程,而非被动接收碎片信息。它挑战了我们对于“知识获取”和“信息理解”的传统定义。
  • AI自主性的边界扩展:Agent的崛起,尤其是能够进行逻辑导航和策略性信息收集的Agent,模糊了AI“工具”与“合作者”的界限。它们不再仅仅是执行指令,而是能在一定程度上“理解”并“策略性地”收集信息以达成目标。这引发了对AI决策链条、问责机制以及人类在高度自动化协作中角色的深层哲学思考。
  • 效率与深度的平衡艺术:长上下文窗口提供了惊人的信息容纳能力,但“上下文腐烂”现象提醒我们,效率并非简单的“越大越好”。如何在高信息容量与精准信息提取之间找到最佳平衡点,考验着AI系统设计的智慧。这反映了人类在面对海量信息时,既需要广度理解,更需要深度洞察的认知需求。未来的AI系统将是这种平衡艺术的体现,既能“读万卷书”,又能“行万里路”,更重要的是能够“思考”并“消化”这些信息。

总而言之,初级的、朴素的RAG确实已成为历史。然而,RAG所代表的为LLM提供外部知识的核心需求依然存在,并且正在以更智能、更集成的形式重塑AI知识处理的未来。未来的图景将是Agent与长上下文窗口协同作用下的“上下文工程”时代,其中,RAG不再是独立的核心架构,而是Agent工具箱中一个强大且高度进化的组件。对于开发者和企业而言,关键在于理解不同技术范式的优劣,并根据具体的应用场景,灵活、智慧地将它们组合成最高效、最可靠的解决方案,以应对AI时代信息洪流中的挑战与机遇。

引用


  1. The RAG Obituary: Killed by Agents, Buried by Context Windows·Nicolas Bustamante(2025/10/19)·检索日期2025/10/20 ↩︎ ↩︎

  2. RAG 已死,上下文工程当立-腾讯新闻 - QQ.COM·腾讯新闻·佚名(检索日期2025/10/20) ↩︎

  3. 长上下文窗口、Agent崛起,RAG已死? - 新浪财经·新浪财经·机器之心(2025/10/19)·检索日期2025/10/20 ↩︎ ↩︎ ↩︎

  4. 上下文工程:超越RAG,大模型应用开发的未来方向·CSDN·开发者社区·佚名(检索日期2025/10/20) ↩︎

  5. 提示词工程、RAG之后,LangChain:上下文工程开始火了! - 腾讯云·腾讯云·佚名(检索日期2025/10/20) ↩︎