谷歌MoR:大模型计算范式的新篇章,超越Transformer的效率哲学

温故智新AIGC实验室

TL;DR:

谷歌最新发布的MoR(Mixture-of-Recursions)架构,以统一参数共享和自适应递归深度为核心,在实现推理速度翻倍、KV内存减半的同时,大幅提升大语言模型效率。这不仅是Transformer架构的重大演进,更是谷歌重塑AI计算范式,推动LLM普及与商业化的战略性一步,预示着未来AI算力瓶颈的突破与应用边界的拓展。

在人工智能领域,每一次底层架构的革新都如同地壳运动,悄无声息却力量磅礴,重塑着整个技术与商业版图。曾被誉为“AI基石”的Transformer架构,在推动大语言模型(LLM)实现前所未有突破的同时,也暴露出其在计算和内存效率上的瓶大模型在推理过程中对KV缓存(键值对缓存)的巨大需求,是导致高内存消耗和推理延迟的关键因素。

技术原理与创新点解析

谷歌DeepMind联合KAIST AI、Mila人团队最新提出的Mixture-of-Recursions(MoR)架构,并非简单的优化,而是一种对LLM底层计算范式的结构性重塑。与Attention机制主导的Transformer或稀疏激活的Mixture-of-Experts(MoE)不同,MoR通过统一参数共享自适应递归深度高效KV缓存三大核心创新,在单一框架内实现了性能与效率的协同跃升。

首先,MoR引入了递归Transformer的概念,通过将模型划分为可复用的递归块,大幅减少了模型所需的独特参数数量。传统的Transformer模型每一层都拥有独立的参数,导致模型规模与计算量呈线性甚至更高阶增长。而MoR的参数共享策略(如Cycle、Sequence、Middle变体)允许模型在不同处理阶段复用同一组参数,这不仅能显著提升分布式训练效率,还能通过连续深度批处理(continuous deep batching)消除计算“气泡”,从而提升推理吞吐量。

其次,MoR的核心突破在于其自适应递归深度机制,即动态路由。传统的LLM模型通常采用固定层数,无论任务复杂与否,每个token都需经过所有层。MoR则通过轻量级路由器为每个token动态分配所需的递归深度,将计算资源集中于处理更复杂的token。无论是基于隐藏状态评分的“Expert-choice路由”,还是预设递归深度并逐步执行的“Token-choice路由”,都赋予了模型按需思考的能力,避免了不必要的计算浪费。这种动态性突破了先前固定思考深度的限制,使得模型能根据输入内容的复杂性进行自适应推理

最后,MoR在KV缓存管理方面进行了革命性优化。大模型在推理过程中对KV缓存(键值对缓存)的巨大需求,是导致高内存消耗和推理延迟的关键因素。MoR采用“Recursion-wise缓存”仅存储当前递归步骤中活跃token的KV对,将注意力计算限制在本地,显著降低了内存和I/O需求。同时,“Recursive KV共享”允许后续递归步骤复用首次递归的KV对,确保了对历史上下文的访问,进一步减少了预填充操作,从而在保持性能的同时直接将KV内存减半。这三者共同作用,使得MoR能够在解码每个token时进行“潜在思考”,从而实现参数效率与自适应计算的统一,达到新的效率最优解。

性能跃升与数据驱动的效率革命

MoR的创新性并非纸上谈兵,其在实际实验中展现出的性能指标令人瞩目。研究人员在135M至1.7B不同参数规模的模型上,对MoR、原始Transformer和递归基线模型进行了对比。在相同的16.5e18 FLOPs训练预算下,MoR仅用50%的参数量,就实现了更低的验证损失和更高的平均少样本准确率(43.1%),而同等FLOPs下原始Transformer的准确率为42.3% 1。这有力证明了MoR的计算效率远超传统模型,能在相同的计算预算下处理更多的训练token,从而达到更好的性能。

进一步的数据分析显示,在固定训练20B token的场景下,MoR的训练FLOPs减少了25%,训练时间缩短了19%,峰值内存降低了25% 1。这意味着在模型训练阶段,MoR就能为开发者和企业节约可观的算力与时间成本。在推理吞吐量评估中,360M规模的MoR模型无论在固定批大小还是最大批大小设置下,均优于vanilla Transformer 1。递归深度的增加使得更多token能够提前退出计算,KV缓存占用减少,推理吞吐量显著提升,这对于实际部署和大规模应用具有颠覆性意义

MoR的可扩展性也得到了IsoFLOP分析的验证。尽管在135M的小模型规模下受递归容量瓶颈影响略逊于Vanilla模型,但在360M及更大规模的模型中,MoR的性能表现接近甚至超越Vanilla模型,而其参数量仅为后者的三分之一 1。这表明,随着模型规模的进一步扩大,MoR的效率优势将愈发显著,有望成为未来构建千亿乃至万亿参数级别LLM的更优选择

谷歌的宏大叙事:从MoE到MoR的架构演进哲学

MoR的发布并非孤立事件,它延续了谷歌在AI底层架构创新上的深层战略意图。从2017年首次将MoE(混合专家模型)引入LSTM层,到后来的GShard、Switch Transformer,直至如今Gemini 1.5 Pro采用的分层MoE架构,谷歌始终致力于通过架构创新来重构计算范式,以解决超大规模模型所面临的算力瓶颈。

MoE的核心逻辑在于其稀疏激活机制,即在拥有海量参数的同时,仅激活其中一小部分“专家网络”进行计算 2。这使得模型能在参数量极大的情况下保持高效训练和推理,为超大规模模型提供了新的范式。MoR则更进一步,将“效率”的思考从“专家选择”延伸到**“递归深度选择”,并与参数共享和KV缓存策略结合,实现了“All in One”的统一优化。这体现了谷歌对于AI模型“效率至上”的深刻理解,以及其对AI未来发展路径的前瞻性布局**。它预示着未来AI模型的迭代,将不仅仅是参数规模的堆砌,更是对底层计算逻辑和资源分配机制的精细化探索。

产业生态重塑与商业化潜能

MoR架构的出现,无疑为当前炙手可热的LLM产业带来了颠覆性的商业机遇。其“推理速度提高2倍,KV内存减半”的特性,直接击中了LLM部署成本高昂这一核心痛点。

首先,降低了LLM的部署门槛。更低的内存需求意味着LLM可以部署在更少的GPU设备上,甚至未来有望在边缘设备上运行更大规模的模型。这对于中小型企业、初创公司以及个人开发者而言,是巨大的福音,将加速LLM在垂直行业和长尾应用中的普及,推动AI技术的“普惠化”。

其次,提升了AI服务的盈利能力。对于提供LLM API服务或私有化部署解决方案的云厂商和AI公司而言,MoR能显著降低运营成本,从而提升利润空间,或以更具竞争力的价格吸引客户。这将进一步激发市场需求,加速AI商业化进程。

再者,MoR的高参数效率和可扩展性为未来更强大的LLM奠定了基础。在现有算力约束下,MoR能在更小的参数规模下实现与Vanilla Transformer相当甚至更优的性能,这意味着企业可以更快、更经济地迭代和部署新一代模型。这种效率优势将成为新的竞争壁垒,促使更多玩家加入底层架构创新的赛道,加速AI领域的“摩尔定律”效应。

从投资角度看,MoR的成功验证将引导资本流向更注重**“算力经济学”“架构效率”**的AI基础设施和模型开发公司。那些能有效利用MoR或类似高效架构,提供高性价比AI服务的企业,将更受市场青睐。同时,MoR的全能特性(All in One,统一参数处理多任务)也预示着LLM模型开发将趋向更通用、更精简的方向,可能减少碎片化的模型维护成本。

超越效率:AI思维模式与社会影响的深层洞察

MoR不仅仅是效率的胜利,它更引发了对AI**“思维模式”以及“潜在空间推理”的深刻哲学思辨。有观点认为,MoR的出现或许代表着“潜在空间推理”(latent space reasoning)将成为LLM的下一个突破口 3。传统LLM更多地依赖于显式表示和层层堆叠的转换,而“递归”与“动态路由”的结合,或许意味着模型正在学习在更抽象、更深层的潜在空间中进行“自适应思考”“信息处理”**。这种内在的“思考”机制,使得模型不再简单地被动处理信息,而是能根据任务复杂性主动调整计算资源和深度,这无疑是迈向更类人智能的关键一步。

如果MoR能够证明其在通用性和可扩展性上的强大潜力,它将不仅仅是“Transformer Killer”,而可能成为下一代AI基础设施的核心组件。这意味着未来的AI系统将能够以更高的效率处理更复杂的、跨模态的任务,进一步模糊人类与机器智能的界限。

然而,随之而来的社会影响也需被正视。当AI的训练和部署成本大幅降低,其普及速度将进一步加快。这将深刻影响就业市场,加速自动化进程,要求劳动力市场进行适应性调整。同时,更强大的AI系统也带来了新的伦理和治理挑战,如信息茧房的加剧、虚假信息生成效率的提升等。如何在享受技术红利的同时,确保AI的负责任发展,将是全社会共同面临的严峻课题。

总而言之,谷歌MoR架构的发布,是AI领域继Transformer和MoE之后,又一次对计算范式的深度探索。它不仅在技术层面解决了大模型的核心痛点,更在商业层面为AI的普及与应用打开了新的局面,甚至在哲学层面引发了我们对机器智能本质的再思考。尽管“Transformer Killer”的论断尚需时间验证 1,但MoR无疑为未来LLM的发展提供了一条极具潜力的道路,它将推动AI从“大而全”向“巧而精”演进,最终加速智能社会的全面到来。

引用


  1. Transformer危,谷歌MoR架构发布:内存减半推理速度还翻倍·量子位·鹭羽(2025/7/18)·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. https://arxiv.org/abs/1701.06538·Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer·Google Brain Team(2017/1/24)·检索日期2025/7/18 ↩︎

  3. https://x.com/reza_byt/status/1945498424536862841·@reza_byt(2025/7/18)·检索日期2025/7/18 ↩︎