TL;DR:
谷歌DeepMind推出的Mixture-of-Recursions (MoR) 架构,预示着大型语言模型(LLM)推理效率的重大飞跃,实现了推理速度翻倍、内存占用减半的突破,其统一框架有望根本性地重塑AI模型的训练与部署范式,并驱动AI商业应用迈向更广阔的普及。
在人工智能领域,Transformer架构自2017年问世以来,一直是大型语言模型(LLM)的基石。然而,随着模型规模的爆炸式增长,其固有的高计算成本和内存消耗日益成为制约AI普及和商业落地的瓶颈。如今,由谷歌DeepMind联合KAIST AI、Mila等机构推出的**Mixture-of-Recursions (MoR)**架构,正以其颠覆性的效率提升,成为业界瞩目的焦点,甚至被冠以“Transformer杀手”的称号,预示着LLM架构演进的新篇章。
技术原理与创新点解析
MoR并非简单的性能优化,而是一种全新的LLM模型架构。它与我们熟知的“专家混合”(Mixture-of-Experts, MoE)模型不同,后者侧重于通过路由激活不同专家子网络来提升模型容量,而MoR则致力于从根本上解决LLM的推理效率和内存占用问题1。
其核心创新在于**“递归混合”的理念,据称它采用了一种统一的框架,旨在高效地处理大型语言模型的训练和部署2。虽然具体的底层技术细节尚未完全公开,但其宣称能够将推理速度提升2倍,并将关键的KV缓存(Key-Value Cache)内存占用直接减半3。这背后的技术逻辑很可能围绕着更智能的信息共享、路由机制和缓存策略**进行深度优化,以减少冗余计算和存储。
“MoR的核心价值在于它并非通过牺牲性能来换取效率,而是找到了一个更优的路径,实现了性能与效率的双赢。”
相较于Transformer依赖于全局注意力机制(其计算复杂性随序列长度呈平方增长),MoR可能引入了某种更具条件性、更稀疏或更结构化的计算模式。这意味着在处理长上下文时,它能更高效地进行信息检索和处理,从而大幅降低算力消耗和内存压力。这种从架构层面对效率的重构,代表了AI模型设计理念的一次深刻转变:从单纯追求模型参数规模和性能,转向更加关注实际应用中的可部署性和经济性。
产业生态影响评估
MoR的出现,无疑将对AI产业生态产生深远影响,尤其体现在商业价值和投资逻辑方面:
- 显著降低LLM推理成本:对于任何依赖LLM提供服务的企业而言,推理成本是其运营开销中的一大痛点。MoR将推理速度提升2倍、内存占用减半,意味着在同等算力投入下,企业可以处理双倍的请求量,或者以一半的成本提供现有服务4。这对于云服务提供商、API服务商以及自建LLM模型的企业来说,都是压倒性的成本优势。
- 加速AI应用普及与商业化:成本的降低将使LLM技术更容易被中小型企业和初创公司采纳,降低了他们进入AI赛道的门槛。过去因成本高昂而难以实现的一些实时、高并发AI应用(如超低延迟智能客服、实时内容生成、边缘侧部署LLM),现在可能变得可行。这无疑会激活更广阔的商业应用场景。
- 重塑LLM产业竞争格局:作为Google DeepMind的最新成果,MoR的发布无疑强化了谷歌在AI基础架构领域的领导地位。如果MoR能够被广泛采纳,它将为谷歌提供强大的技术壁垒和市场优势。其他科技巨头和AI初创公司将面临压力,要么加速研发自己的下一代高效架构,要么选择适配和优化MoR或类似的开源解决方案。这可能引发一场新的LLM架构军备竞赛。
- 投资热点转移:资本市场将更关注那些能有效降低AI运营成本、提升部署效率的技术和公司。除了模型架构本身,专注于MoR或其他高效架构的优化工具、部署平台和推理芯片公司,都可能成为新的投资风口。从“大而全”到“小而精且高效”的投资逻辑转变正在发生。
未来发展路径预测
MoR的问世,不仅仅是一个技术发布,更像是一个信号,预示着LLM发展进入了**“效率优先”**的新阶段。
- 架构演进的多元化:虽然MoR被视为Transformer的有力挑战者,但这并不意味着Transformer会立即被取代。更可能的情况是,未来的LLM架构将呈现出多元化和融合化的趋势。MoR的递归机制可能会与MoE、稀疏激活、混合精度计算等技术进一步结合,形成适应不同应用场景的定制化模型。例如,我们可能会看到在通用模型上采用MoR,而在特定领域模型上则结合其他优化技术。
- 边缘AI与端侧部署的突破:大幅降低的内存和计算需求,使得LLM在智能手机、物联网设备、车载系统等边缘侧和端侧设备上进行部署成为可能。这将催生海量的离线AI应用和个性化智能服务,极大扩展AI的边界,推动“智能无处不在”的愿景实现。想象一下,一个能够实时、离线执行复杂语言任务的个人AI助理,将极大改变我们的数字生活方式。
- 算力基础设施的重构:MoR对KV内存的显著削减,可能会影响未来AI推理芯片的设计方向。芯片制造商将需要更加注重如何高效支持这种新型架构,提供更匹配的内存带宽和计算单元。同时,云服务商将优化其基础设施,以更好地支持基于MoR的模型推理服务,从而提供更具性价比的AI解决方案。算力经济学将因架构创新而发生深层变革。
- 社会影响的深入化:当LLM变得更便宜、更快、更容易部署时,其对社会的影响将从“可能”变为“必然”。信息的生成与传播将更加迅速,数字内容的创造门槛将进一步降低。这既带来了生产力提升的巨大机遇,也对内容真实性、伦理治理和AI安全提出了更高要求。哲学层面上,我们不得不思考,当AI无处不在且成本极低时,人类与信息、与智能的关系将如何被重塑。这不仅仅是技术迭代,更是人类文明在数字时代自我认知的又一次深刻探索。
MoR不仅是谷歌DeepMind在LLM架构领域的一次大胆尝试,更是对整个AI生态系统的一次效率催化。它不仅为LLM的商用普及扫清了重要的成本障碍,更可能作为未来AI架构演进的一个关键里程碑,驱动着人类社会向一个更加智能、高效且普惠的未来加速迈进。这是一场关于计算效率的革命,也是关于AI真正融入我们生活方方面面的前奏。
引用
-
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王 ... ·知乎专栏·(2025/7/23)·检索日期2025/7/23 ↩︎
-
MoR:共享+ 路由+ 缓存,递归混合模型为LLM瘦身 - 知乎专栏 ·知乎专栏·(2025/7/23)·检索日期2025/7/23 ↩︎
-
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍 - 量子位 ·量子位·(2025/7/23)·检索日期2025/7/23 ↩︎
-
Transformer终结者!谷歌DeepMind全新MoR架构问世 - 新浪财经 ·新浪财经·(2025/7/23)·检索日期2025/7/23 ↩︎