打破计算单体:解耦推理如何重塑AI效率与智能架构的未来

温故智新AIGC实验室

TL;DR:

一项源自实验室的“解耦推理”理念,短短一年半已成为主流AI大模型推理框架的行业标准。它通过分离大模型推理的“预填充”和“解码”阶段,实现了计算资源效率的质变,不仅大幅降低了运行成本和延迟,更预示着AI系统正从“计算单体”迈向“模块化智能”的深层范式转变。

在人工智能领域,一项看似寻常的系统优化——“解耦推理”(Disaggregated Inference)——正在悄然引发一场深刻的效率革命。这项由北京大学金鑫-刘譞哲团队和加州大学圣地亚哥分校“Hao AI Lab”于2024年3月提出的理念,从最初的学术概念,迅速成长为包括NVIDIA、DeepSeek、vLLM等在内的几乎所有主流大模型推理框架的标准配置。它的崛起不仅远超“摩尔定律”所预示的计算能力迭代速度,更深层次地推动了AI系统架构的本质性变革,指向一个“模块化智能”的新时代。

技术原理与创新点解析

长期以来,大模型的推理过程普遍采用“同址部署”(Co-located Deployment)方式,即在同一块GPU上同时处理用户输入的“预填充”(Prefill)阶段和模型生成输出的“解码”(Decode)阶段。尽管“连续批处理”(Continuous Batching)等技术曾被Orca和vLLM推广为业界标准,但这种单体架构存在两个核心局限:

  1. 互相干扰的延迟(Interference):Prefill和Decode共享计算资源时,彼此的延迟会相互影响。特别是在负载突发时,一个大型的预填充请求可能导致每次输出一个Token的时间(TPOT)膨胀2到3倍,严重影响用户体验。1
  2. 耦合的伸缩性(Coupled Scaling):在企业级应用中,首个Token的生成时间(TTFT)和后续Token的生成时间(TPOT)是关键的用户体验指标。同址部署要求资源分配同时满足两种最坏情况的延迟需求,导致系统需要过度预留资源,计算资源利用率低下。

DistServe的“解耦推理”理念,正是对这些痛点的颠覆性回应。它提出将大模型的推理过程拆分为“预填充”和“解码”两个独立阶段,并让它们在独立的计算资源池中进行伸缩与调度。这种分离彻底打破了两者之间的干扰,并首次实现了独立伸缩,使系统能各自独立地满足TTFT和TPOT的延迟要求,同时保持高整体效率。

尽管这一理念在2024年初被提出时,因需要大量工程投入而未立即获得广泛采纳,但到了2025年,随着大模型在企业级应用中扮演核心角色,“延迟控制”和“资源效率”成为业务增长的关键,解耦架构的优势全面显现:

  • 实时延迟控制:企业将大模型作为核心业务组件时,对延迟的精准控制至关重要,解耦推理提供了易于观测和持续优化的路径。
  • 极致资源利用率与弹性伸缩:面对需要扩展到数百甚至上千张GPU的庞大且多变的负载,解耦架构能够为不同阶段独立分配资源,并灵活配合多种并行策略,实现极高的资源利用率。
  • 架构可组合性:解耦促进了系统架构的模块化,使得各组件能够独立优化和升级,增强了整体的灵活性和可维护性。

如今,在编排层有NVIDIA Dynamo2、llm-d、Ray Serve等,在存储层有通过中心化KV缓存优化解耦的LMCache和Kimi AI团队的MoonCake[^12],在核心推理引擎层有SGLang和vLLM,都已原生支持或基于解耦推理架构,使其成为大规模LLM推理系统的事实标准。MoonCake项目甚至实现了平均吞吐量提升75%,特定场景下吞吐量提升5.25倍,并支撑了Kimi线上80%的流量。3

产业生态影响评估

解耦推理的迅速崛起,是技术创新与市场需求深度契合的典型案例,其商业敏锐度和产业影响力不容小觑。NVIDIA作为AI算力巨头,通过推出Dynamo分布式推理框架并向“Hao AI Lab”赠送DGX B200系统,展现了其在软硬件协同生态上的前瞻性布局。Dynamo作为业界领先的数据中心级分布式推理框架,专为P/D解耦设计,能够支持多种推理引擎,并在NVIDIA GB200 NVL72上将DeepSeek-R 67B模型的吞吐量提升30倍。2 这不仅巩固了NVIDIA在AI基础设施领域的主导地位,也预示着未来的AI硬件设计将更加紧密地与解耦架构融合。

DeepSeek、Kimi AI等头部大模型厂商的积极采纳,则反映了大模型运营成本优化用户体验提升的迫切性。当大模型成为企业核心业务时,推理效率直接关系到其商业模式的盈利能力和用户留存。通过解耦,企业能够更精细地控制成本,按需分配昂贵的GPU资源,并在保证高性能的同时,实现可持续的业务增长。这为大模型服务商提供了一条清晰的投资回报优化路径

此外,解耦推理促成了整个AI推理技术栈的重塑。从底层的硬件加速、中层的KV缓存管理,到上层的调度与编排,所有环节都在向支持解耦的方向演进。这种系统性的变革,为新兴的创业公司提供了创新空间,也对现有的技术服务商提出了更高的集成与优化要求。**“可组合性”“模块化”**将成为未来AI基础设施的关键竞争要素。

未来发展路径预测

“预填充-解码解耦”仅仅是“解耦哲学”的起点。从长远来看,解耦不仅仅是一种架构技巧,更是一种更深层次的系统哲学:打破神经网络推理中的“计算单体”结构,让系统能够在计算、存储与通信之间实现自由重组。我们正迈向一个“通用分解式推理(Generalized Disaggregated Inference)”的时代。

  1. 计算层面的深层解耦

    • Attention-FFN解耦:MIT CSAIL与DeepSeek Research、刘譞哲-金鑫团队的MegaScale-Infer系统,尝试将Transformer模型的注意力模块和前馈层放置于不同计算节点,利用异构硬件优势,让每个节点运行模型的一个功能子模块,而非完整副本。
    • 流水线解耦:Stanford DAWN的DisPipe、Meta AI的HydraPipe和Alibaba DAI-Lab的PipeShard等系统,正在探索跨层级的流水线分解,使推理过程在不同节点之间以“阶段流”方式流动,为未来多芯片异构系统铺平道路。
  2. 跨模态与多模型的解耦:随着多模态大模型的普及,将图像、文本、语音等模态分解为独立的子推理流,并通过调度器异步融合,将成为提升多模态系统效率的关键。同时,在推理系统中协同运行多个专用子模型也将成为常态,天然适合解耦化设计。

  3. 内存与缓存体系的解耦:当前的解耦依赖集中式KV缓存,未来将演变为多层解耦与自治调度。MIT与ETH Zürich提出的HiKV(Hierarchical KV Cache)框架,将KV缓存划分为GPU本地、节点共享和分布式持久三个层次,实现根据上下文热度自动迁移KV片段,使内存管理更具弹性。更进一步,硬件厂商已开始探索原生支持解耦架构的芯片,预示着软硬件一体化的存算协同将成为主流。

  4. 迈向“解耦学习”与“模块化智能”:Google Brain Zürich和FAIR等团队甚至提出更大胆的设想:既然推理可以解耦,那么模型的训练与持续学习是否也能被解耦?“解耦学习”通过将学习过程分解为多个独立子任务,每个任务在不同硬件上运行,并通过共享梯度缓存与语义路由器进行通信。这被视为解决大模型“灾难性遗忘”和“持续适应”问题的潜在关键路径,Google Zürich团队的“Hope”模型便是实践之一。

过去十年,深度学习系统呈现出“从分散到集中”的趋势,所有计算汇聚于单体模型。如今,趋势正在反转,AI系统正从“集中到解耦”,走向模块化智能。这并非倒退,而是技术成熟的标志。不同功能模块能够独立演化、独立扩展、独立优化,这将深刻影响未来AI系统的设计范式、部署成本和迭代速度。

最终,我们或许将看到“解耦学习”“解耦推理”和更宏观的“解耦认知”三者深度融合的智能架构体系。这种系统性的模块化,不仅将带来前所未有的效率提升,更可能重新定义AI的本质,使其能够以更灵活、更可持续的方式适应和改造世界。AI将不再是一个不透明的黑箱,而是一个由众多可理解、可优化的智能组件构成的开放式、可进化的智能有机体,这对于人类文明的进程和我们与AI共存的未来,都具有深远而积极的意义。


引用


  1. 英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理·知乎·新智元(2025/11/10)·检索日期2025/11/10 ↩︎

  2. Dynamo:NVIDIA最新开源的数据中心级分布式推理框架·火山引擎开发者社区(2025/11/10)·检索日期2025/11/10 ↩︎ ↩︎

  3. 信通院宇文梦柯等:大模型推理优化——技术突破与产业落地新范式·中国信息通信网·宇文梦柯等(2025/11/10)·检索日期2025/11/10 ↩︎