谷歌MoR：大模型计算范式的新篇章，超越Transformer的效率哲学

TL;DR：

谷歌最新发布的MoR（Mixture-of-Recursions）架构，以统一参数共享和自适应递归深度为核心，在实现推理速度翻倍、KV内存减半的同时，大幅提升大语言模型效率。这不仅是Transformer架构的重大演进，更是谷歌重塑AI计算范式，推动LLM普及与商业化的战略性一步，预示着未来AI算力瓶颈的突破与应用边界的拓展。

在人工智能领域，每一次底层架构的革新都如同地壳运动，悄无声息却力量磅礴，重塑着整个技术与商业版图。曾被誉为“AI基石”的Transformer架构，在推动大语言模型（LLM）实现前所未有突破的同时，也暴露出其在计算和内存效率上的瓶大模型在推理过程中对KV缓存（键值对缓存）的巨大需求，是导致高内存消耗和推理延迟的关键因素。

技术原理与创新点解析

谷歌DeepMind联合KAIST AI、Mila人团队最新提出的Mixture-of-Recursions（MoR）架构，并非简单的优化，而是一种对LLM底层计算范式的结构性重塑。与Attention机制主导的Transformer或稀疏激活的Mixture-of-Experts（MoE）不同，MoR通过统一参数共享、自适应递归深度和高效KV缓存三大核心创新，在单一框架内实现了性能与效率的协同跃升。

首先，MoR引入了递归Transformer的概念，通过将模型划分为可复用的递归块，大幅减少了模型所需的独特参数数量。传统的Transformer模型每一层都拥有独立的参数，导致模型规模与计算量呈线性甚至更高阶增长。而MoR的参数共享策略（如Cycle、Sequence、Middle变体）允许模型在不同处理阶段复用同一组参数，这不仅能显著提升分布式训练效率，还能通过连续深度批处理（continuous deep batching）消除计算“气泡”，从而提升推理吞吐量。

其次，MoR的核心突破在于其自适应递归深度机制，即动态路由。传统的LLM模型通常采用固定层数，无论任务复杂与否，每个token都需经过所有层。MoR则通过轻量级路由器为每个token动态分配所需的递归深度，将计算资源集中于处理更复杂的token。无论是基于隐藏状态评分的“Expert-choice路由”，还是预设递归深度并逐步执行的“Token-choice路由”，都赋予了模型按需思考的能力，避免了不必要的计算浪费。这种动态性突破了先前固定思考深度的限制，使得模型能根据输入内容的复杂性进行自适应推理。

最后，MoR在KV缓存管理方面进行了革命性优化。大模型在推理过程中对KV缓存（键值对缓存）的巨大需求，是导致高内存消耗和推理延迟的关键因素。MoR采用“Recursion-wise缓存”仅存储当前递归步骤中活跃token的KV对，将注意力计算限制在本地，显著降低了内存和I/O需求。同时，“Recursive KV共享”允许后续递归步骤复用首次递归的KV对，确保了对历史上下文的访问，进一步减少了预填充操作，从而在保持性能的同时直接将KV内存减半。这三者共同作用，使得MoR能够在解码每个token时进行“潜在思考”，从而实现参数效率与自适应计算的统一，达到新的效率最优解。

性能跃升与数据驱动的效率革命

MoR的创新性并非纸上谈兵，其在实际实验中展现出的性能指标令人瞩目。研究人员在135M至1.7B不同参数规模的模型上，对MoR、原始Transformer和递归基线模型进行了对比。在相同的16.5e18 FLOPs训练预算下，MoR仅用50%的参数量，就实现了更低的验证损失和更高的平均少样本准确率（43.1%），而同等FLOPs下原始Transformer的准确率为42.3% ¹。这有力证明了MoR的计算效率远超传统模型，能在相同的计算预算下处理更多的训练token，从而达到更好的性能。

进一步的数据分析显示，在固定训练20B token的场景下，MoR的训练FLOPs减少了25%，训练时间缩短了19%，峰值内存降低了25% ¹。这意味着在模型训练阶段，MoR就能为开发者和企业节约可观的算力与时间成本。在推理吞吐量评估中，360M规模的MoR模型无论在固定批大小还是最大批大小设置下，均优于vanilla Transformer ¹。递归深度的增加使得更多token能够提前退出计算，KV缓存占用减少，推理吞吐量显著提升，这对于实际部署和大规模应用具有颠覆性意义。

MoR的可扩展性也得到了IsoFLOP分析的验证。尽管在135M的小模型规模下受递归容量瓶颈影响略逊于Vanilla模型，但在360M及更大规模的模型中，MoR的性能表现接近甚至超越Vanilla模型，而其参数量仅为后者的三分之一 ¹。这表明，随着模型规模的进一步扩大，MoR的效率优势将愈发显著，有望成为未来构建千亿乃至万亿参数级别LLM的更优选择。

谷歌的宏大叙事：从MoE到MoR的架构演进哲学

MoR的发布并非孤立事件，它延续了谷歌在AI底层架构创新上的深层战略意图。从2017年首次将MoE（混合专家模型）引入LSTM层，到后来的GShard、Switch Transformer，直至如今Gemini 1.5 Pro采用的分层MoE架构，谷歌始终致力于通过架构创新来重构计算范式，以解决超大规模模型所面临的算力瓶颈。

MoE的核心逻辑在于其稀疏激活机制，即在拥有海量参数的同时，仅激活其中一小部分“专家网络”进行计算 ²。这使得模型能在参数量极大的情况下保持高效训练和推理，为超大规模模型提供了新的范式。MoR则更进一步，将“效率”的思考从“专家选择”延伸到**“递归深度选择”，并与参数共享和KV缓存策略结合，实现了“All in One”的统一优化。这体现了谷歌对于AI模型“效率至上”的深刻理解，以及其对AI未来发展路径的前瞻性布局**。它预示着未来AI模型的迭代，将不仅仅是参数规模的堆砌，更是对底层计算逻辑和资源分配机制的精细化探索。

产业生态重塑与商业化潜能

MoR架构的出现，无疑为当前炙手可热的LLM产业带来了颠覆性的商业机遇。其“推理速度提高2倍，KV内存减半”的特性，直接击中了LLM部署成本高昂这一核心痛点。

首先，降低了LLM的部署门槛。更低的内存需求意味着LLM可以部署在更少的GPU设备上，甚至未来有望在边缘设备上运行更大规模的模型。这对于中小型企业、初创公司以及个人开发者而言，是巨大的福音，将加速LLM在垂直行业和长尾应用中的普及，推动AI技术的“普惠化”。

其次，提升了AI服务的盈利能力。对于提供LLM API服务或私有化部署解决方案的云厂商和AI公司而言，MoR能显著降低运营成本，从而提升利润空间，或以更具竞争力的价格吸引客户。这将进一步激发市场需求，加速AI商业化进程。

再者，MoR的高参数效率和可扩展性为未来更强大的LLM奠定了基础。在现有算力约束下，MoR能在更小的参数规模下实现与Vanilla Transformer相当甚至更优的性能，这意味着企业可以更快、更经济地迭代和部署新一代模型。这种效率优势将成为新的竞争壁垒，促使更多玩家加入底层架构创新的赛道，加速AI领域的“摩尔定律”效应。

从投资角度看，MoR的成功验证将引导资本流向更注重**“算力经济学”和“架构效率”**的AI基础设施和模型开发公司。那些能有效利用MoR或类似高效架构，提供高性价比AI服务的企业，将更受市场青睐。同时，MoR的全能特性（All in One，统一参数处理多任务）也预示着LLM模型开发将趋向更通用、更精简的方向，可能减少碎片化的模型维护成本。

超越效率：AI思维模式与社会影响的深层洞察

MoR不仅仅是效率的胜利，它更引发了对AI**“思维模式”以及“潜在空间推理”的深刻哲学思辨。有观点认为，MoR的出现或许代表着“潜在空间推理”（latent space reasoning）将成为LLM的下一个突破口 ³。传统LLM更多地依赖于显式表示和层层堆叠的转换，而“递归”与“动态路由”的结合，或许意味着模型正在学习在更抽象、更深层的潜在空间中进行“自适应思考”和“信息处理”**。这种内在的“思考”机制，使得模型不再简单地被动处理信息，而是能根据任务复杂性主动调整计算资源和深度，这无疑是迈向更类人智能的关键一步。

如果MoR能够证明其在通用性和可扩展性上的强大潜力，它将不仅仅是“Transformer Killer”，而可能成为下一代AI基础设施的核心组件。这意味着未来的AI系统将能够以更高的效率处理更复杂的、跨模态的任务，进一步模糊人类与机器智能的界限。

然而，随之而来的社会影响也需被正视。当AI的训练和部署成本大幅降低，其普及速度将进一步加快。这将深刻影响就业市场，加速自动化进程，要求劳动力市场进行适应性调整。同时，更强大的AI系统也带来了新的伦理和治理挑战，如信息茧房的加剧、虚假信息生成效率的提升等。如何在享受技术红利的同时，确保AI的负责任发展，将是全社会共同面临的严峻课题。

总而言之，谷歌MoR架构的发布，是AI领域继Transformer和MoE之后，又一次对计算范式的深度探索。它不仅在技术层面解决了大模型的核心痛点，更在商业层面为AI的普及与应用打开了新的局面，甚至在哲学层面引发了我们对机器智能本质的再思考。尽管“Transformer Killer”的论断尚需时间验证 ¹，但MoR无疑为未来LLM的发展提供了一条极具潜力的道路，它将推动AI从“大而全”向“巧而精”演进，最终加速智能社会的全面到来。

引用

Transformer危，谷歌MoR架构发布：内存减半推理速度还翻倍·量子位·鹭羽（2025/7/18）·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
https://arxiv.org/abs/1701.06538·Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer·Google Brain Team（2017/1/24）·检索日期2025/7/18 ↩︎
https://x.com/reza_byt/status/1945498424536862841·@reza_byt（2025/7/18）·检索日期2025/7/18 ↩︎