TL;DR:
Transformer架构正因其二次复杂度与记忆机制的局限性,在AGI进化的必经之路上遭遇前所未有的工程挑战。这场架构之争本质上是“Scaling Law带来的工程惯性”与“追求更高效长程学习范式”之间的博弈,预示着AI将从单纯的数据堆砌转向更具计算效率与自主记忆能力的演进。
核心地基的裂痕:为什么我们谈论“Post-Transformer”?
2017年《Attention Is All You Need》开启了一个算法统治的十年,但任何技术的统治地位在物理定律面前都显得脆弱。Transformer的“原罪”在于其注意力机制的计算开销随序列长度呈现 $O(n^2)$ 的指数级增长。当AI的应用场景从短文本问答迈向全书分析、长代码库理解甚至数字孪生环境时,这种“图书管理员翻阅所有卡片”的检索方式便成了效率的枷锁。
更深层的危机在于其“土拨鼠之日”式的记忆模型。当前的Transformer在推理过程中权重被冻结,即便在上下文中学习(In-Context Learning),这种学习也只是转瞬即逝的记忆。正如辩论挑战者所指出的,AGI需要持续的、非重置的记忆系统,而不仅仅是靠RAG或KV Cache等“补丁”维持的虚假长程依赖。
资本与工程的囚徒困境
这场旧金山擂台赛不仅是学术辩论,更是对硅谷万亿资本投资逻辑的审问。目前全球AI算力基础设施(从H100集群到CUDA核函数库)几乎全部围绕Transformer优化。换架构,意味着推翻整套价值数千亿美元的工业基座。
Łukasz Kaiser代表了“工程现实主义”的立场:架构的优劣不仅看数学的优美,更看在现有硬件架构上的Scaling曲线。Transformer的并行性完美契合了当前的GPU计算架构。挑战者们(如Liquid AI或Sakana AI)试图探索的新架构,虽然在数学上解决了长程依赖与计算复杂度问题,但它们必须证明自己能在硬件上跑得比Transformer快,或者通过AI Agent自优化的方式解决“硬件壁垒”。
技术进化的范式转换
未来的演进路径可能不会是简单的“推倒重来”,而是走向多元的融合与涌现:
- 架构层: 线性架构(Linear Attention)或混合架构(如Mamba与Transformer的结合)正在通过压缩状态空间来突破复杂度瓶颈。
- 计算层: AI Agent编写CUDA核函数的能力正在迅速瓦解新架构的“工程歧视”。当机器能自己优化代码时,硬件彩票的壁垒将不再是新架构的死穴。
- 范式层: 真正的突破点在于将“权重训练”与“持续记忆”解耦,允许模型在推理阶段动态更新知识结构,这是从单纯的概率预测器向自主认知系统进化的关键一步。
结语:超越十年周期的视野
Transformer终将被超越,这在科技史上是不可避免的必然。正如卷积神经网络(CNN)曾是视觉领域的绝对霸主,最终却在Transformer的降维打击下让出王座。目前这场争论的意义在于,它标志着AI产业开始从“大炼模型”的规模扩张期,进入到“追求效率与持续智能”的架构深水区。
当Kaiser说出“Transformer也会找到下一个架构”时,他揭示了一个深刻的哲学真相:技术本质上是一个自进化系统,开发者对技术的批判与辩护,正是推动其迈向下一形态的内驱力。无论谁胜出,这场关于底层的争斗都将加速AI文明向更低功耗、更高理解力迈进的进程。