超越思维链的囚徒困境:Transformer拓扑缺陷与循环架构的回归

温故智新AIGC实验室

TL;DR:

DeepMind最新研究揭示Transformer架构因拓扑限制导致“状态追踪”能力缺失,依赖昂贵的“思维链”仅是权宜之计。未来AI演进将从“反复检索历史”转向具备动态隐式状态维护的循环架构,这不仅是计算效率的博弈,更是通向长时认知系统的关键范式转移。

架构的本质困境:记忆的拓扑边界

长期以来,我们沉浸在“注意力机制(Attention)”带来的幻觉中,认为只要不断堆叠参数、拉长上下文窗口,模型就能掌握真正的逻辑。然而,DeepMind的这项研究如同一针清醒剂,直指Transformer的硬伤:它本质上是一个基于静态历史检索的图书馆员,而非一个拥有动态神经元状态的思考者。 1

论文通过拓扑学视角指出,Transformer的状态更新路径在网络深度上存在物理极限。当模型处理复杂的逻辑序列时,内部状态被层层推向深处,直至“触顶”。这种结构性缺陷导致模型在长时推理中极易遗忘关键事实,出现严重的逻辑回溯偏差。我们当前推崇的“思维链(CoT)”,本质上是模型为了绕过这一缺陷,被迫将内部逻辑外化为文本进行“缓存”的冗余操作——这不仅带来了指数级的推理成本,更暴露了模型缺乏内在状态演化能力的真相。 2

产业的商业陷阱与效率代价

从商业敏锐度来看,思维链的盛行造就了一种“低效增长”的泡沫。当Claude或GPT模型为了保证逻辑链条的完整性而产生数千词的推导过程时,它们消耗的是昂贵的算力与用户的金钱。在商业模式上,这是一种典型的“以量换质”策略:通过极度拉高推理成本来掩盖架构缺陷。

目前的市场逻辑已经出现分叉:

  • 短期妥协:厂商继续扩大上下文窗口,追求通过 brute-force(暴力破解)方式容纳更多历史记录。
  • 技术反思:以MAMBA、DeltaNet为代表的状态空间模型(SSM)开始回归“循环(Recurrent)”理念。 3

正如DeepMind所言,RNN的幽灵从未真正离去。这些新型架构通过线性化的状态更新,试图在保持并行训练能力的同时,重建一种像人类大脑那样——无需反复翻阅笔记,而是通过“内化状态”自动演进的认知机制。

哲学视野下的进化:从检索到认知

从Wired的哲学视角观察,我们正处于AI演进的“转向时刻”。当前的Transformer像是一个极度勤奋但缺乏内省能力的文书,它处理的每一个任务都是“孤立的快照”。如果我们追求的是能够处理连续、复杂社会性决策的自主智能体(AI Agents),那么这种“流动的、持续演化的现实表示”是不可或缺的。 4

未来的AI系统必须实现从“历史记录读取”向“状态动力学”的跃迁。这种改变将引发以下变革:

  1. 推理范式的根本变革:AI不再需要展示冗长的思维过程,推理能力将内化为模型的隐式动态。
  2. 算力效率的重构:推理成本将随序列长度实现线性优化,而非当前思维链模式下的平方甚至更高量级。
  3. 交互方式的进化:AI将拥有真正的“背景意识”,在对话中不再需要用户反复提供上下文,因为它始终维护着一个连贯的认知模型。

前瞻与展望

虽然将循环机制无缝融入Transformer体系仍面临训练稳定性等挑战,但研究方向已经明确。这不再是关于哪种模型参数量更大的竞争,而是关于“谁能率先构建出真正的记忆与状态空间”的架构之战。

对于企业而言,如果说过去三年是“注意力模型”的市场教育期,那么未来三到五年,市场的核心叙事将转向“状态高效的循环智能”。这不仅是技术的修补,更是人工智能从“语言生成工具”迈向“长时认知实体”的必要一步。

引用


  1. DeepMind:Transformer存在拓扑缺陷,思维链治标不治本·新浪财经·(2026/6/17)·检索日期2026/6/17 ↩︎

  2. The Topological Trouble With Transformers·arXiv·Michael C. Mozer et al.·(2026/4/30)·检索日期2026/6/17 ↩︎

  3. DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美·智源社区·(2026/6/17)·检索日期2026/6/17 ↩︎

  4. 如果你想了解Transformer架构的硬伤,这篇今年4月的论文非常有·X(Twitter)·(2026/6/17)·检索日期2026/6/17 ↩︎