康奈尔和CMU等机构的研究者推出Eso-LM,一种融合了离散扩散和自回归机制的语言模型。它在保持高质量生成的同时,实现了比现有扩散模型快65倍的推理速度,并引入了传统扩散模型难以实现的KV缓存机制,预示着语言模型架构的新纪元。
在人工智能的竞技场中,Transformer架构曾是无可争议的王者,其并行处理能力和捕捉长距离依赖的优势,催生了ChatGPT等一系列革命性的大语言模型(LLM)1。然而,这份荣耀背后也潜藏着不容忽视的局限性:自注意力机制O(N²)的计算复杂度,使得Transformer在处理超长序列时面临着巨大的计算资源和内存消耗挑战,从而限制了其在实际应用中的效率和可扩展性2。正是这些深层瓶颈,驱动着研究者们孜孜不倦地探索新的架构和范式,以期在生成质量、推理速度和计算成本之间找到更优的平衡点。
近期,来自康奈尔大学、卡内基梅隆大学等机构的研究者们,在一项名为“Esoteric Language Models(Eso-LMs)”的最新工作中取得了突破性进展,为这一探索提供了有力的答案。他们提出了一种前所未有的“混合体”语言模型,巧妙地结合了扩散建模(Diffusion Models)的并行生成能力与自回归(Autoregressive)模型的序列生成优势,实现了惊人的推理速度提升——相比标准掩蔽扩散模型(MDM)快65倍,比支持KV缓存的半自回归基线模型快3-4倍3。这一成果不仅在性能上设立了新的里程碑,更引发了AI社区的深思,甚至有研究员惊呼:“自回归危在旦夕。”
技术革新:混合范式与机制解析
语言生成领域长期以来由自回归模型主导,它们通过逐词预测来生成文本,虽然效果卓越,但其固有的串行性限制了推理速度。近年来,以DALL-E、Midjourney为代表的扩散模型在图像生成领域取得了巨大成功,其核心思想是通过逐步去噪一个随机噪声,最终生成清晰的图像。将扩散方法引入语言模型(即掩蔽扩散模型MDM)自然地提供了并行生成token的潜力,但MDM也存在显著的“致命短板”:一是速度慢,缺乏KV缓存机制导致实际推理速度往往比自回归模型更慢;二是质量差,在复杂任务中表现不佳,似然度低于自回归模型3。
为了克服这些局限,此前的“块扩散(Block Diffusion)模型BD3-LM”尝试融合两种范式,通过分块生成实现并行化,并在一定程度上引入了KV缓存。然而,BD3-LM仍面临速度与质量的权衡困境:在低采样步数下容易出现模式崩塌,导致生成质量下降,且只支持部分缓存,块内键值(KV)缓存仍缺失3。
Eso-LM正是针对这些痛点应运而生。其核心创新在于:
- KV缓存的巧妙引入:KV缓存是自回归模型加速推理的“杀手锏”,但由于扩散模型并行去噪的特性,将其引入扩散模型一直是个挑战。Eso-LM通过创新的混合训练方法和统一的注意力机制,实现了在扩散和顺序两个阶段的KV缓存,大幅减少了计算量。在生成过程中,模型只对部分单词(掩码和干净单词)进行前向计算,并缓存干净单词的KV对3。
- 统一的Transformer架构与注意力偏置矩阵:自回归模型需要因果注意力(单向),而掩蔽去噪模型依赖双向注意力。Eso-LM通过引入注意力偏置矩阵A,巧妙地调整标准自注意力机制,使其能够在单个Transformer中根据需要模拟因果和双向注意力行为,从而支持顺序和并行两种生成模式3。
- 混合训练策略:Eso-LM的训练过程别具一格,一半数据采用自回归风格(预测下一个词),另一半采用扩散风格(部分掩码,逐步去噪)。通过超参数α₀的调控,模型实现了自回归与掩码扩散两种生成范式的平滑插值,能够在文本通顺度、生成质量和推理速度之间取得完美平衡3。
- 两阶段生成流程:Eso-LM的生成分为扩散阶段和顺序阶段。在扩散阶段,模型在每一步去噪一个或多个可能不相邻的掩蔽token,并优化采样过程以支持高效KV缓存。在顺序阶段,模型从左到右逐个去噪剩余的掩蔽token,同样自然地支持KV缓存3。这种设计既利用了扩散模型的并行优势,又弥补了其在连贯性上的不足。
性能飞跃与行业冲击
Eso-LM的实验结果令人瞩目。在LM1B和OpenWebText(OWT)等标准语言建模基准测试中,Eso-LM不仅将扩散模型的困惑度(Perplexity,衡量语言模型质量的指标,越低越好)记录从18.7显著降低至16.3(LM1B),相对提升达13%,更重要的是,它在速度与质量的权衡上达到了前所未有的“帕累托前沿”3。这意味着,Eso-LM可以在保持甚至超越现有模型生成质量的前提下,实现大幅度的推理速度提升。
当生成长度为8192的序列时,Eso-LM模型的推理速度相比MDLM快65倍,比BD3-LMs快3-4倍。这种速度的提升并非以牺牲质量为代价;它在高速采样条件下实现了与MDLM相当的困惑度,而在需要时,甚至可以达到与传统自回归模型相同的困惑度水平。尤为关键的是,Eso-LM在采样步骤较少时不会出现模式崩溃——这是Block Diffusion模型所无法做到的3。这一特性对于实际部署至关重要,因为它允许在计算资源受限或需要快速响应的场景下,仍能获得可靠的生成结果。
这项研究已经引起了业界的广泛关注。英伟达研究院杰出研究科学家Pavlo Molchanov公开表示:“扩散大语言模型正在崛起!”而此次新论文的作者之一,Arash Vahdat正是英伟达研究院的科研总监,领导基础生成式人工智能团队,这不禁让人猜测,英伟达是否也在积极押注扩散语言模型这一赛道3。此前,谷歌在I/O大会上展示了实验版语言模型Gemini Diffusion,宣称推理速度可达每秒1400多个token。斯坦福、UCLA和康奈尔的教授们联合创立的Inception Labs也已推出了商用级别的扩散语言模型,声称其推理速度可达ChatGPT的6倍3。这些动向无不表明,以扩散为代表的新型语言模型范式,正在从学术前沿走向商业应用,对现有大模型生态构成有力挑战。
前瞻:语言模型架构的未来
Eso-LM的诞生,不仅是技术层面的一个里程碑,更是对未来语言模型架构发展方向的一次重要昭示。它证明了通过巧妙地融合不同范式的优点,可以突破单一架构的性能瓶颈。Transformer虽然强大,但其固有的二次方计算复杂度使其在处理日益增长的上下文长度时显得力不从心。研究人员们一直在探索各种替代方案或增强机制,如Mixture-of-Depths (MoD) 通过动态分配计算资源提升效率4,以及结合Mamba等状态空间模型(SSM)以实现线性复杂度来处理长文本5。
Eso-LM所代表的扩散与自回归的混合,为我们描绘了一个更高效、更灵活的未来。如果这种混合范式能够进一步优化并广泛应用,其带来的影响将是深远的:
- 降低成本与扩大应用范围:更快的推理速度意味着更低的算力需求和运营成本。这将使大语言模型能够更经济地部署在边缘设备上,或者支持更复杂的实时交互应用,例如智能助理、自动驾驶中的情境理解等。
- 提升用户体验:实时的、高质量的文本生成能力将极大改善用户在与AI系统互动时的体验,使得AI的响应更加流畅和自然。
- 新的研究方向:Eso-LM的成功将激励研究人员更深入地探索不同AI范式之间的融合,例如如何将图神经网络、强化学习等更多机制与语言模型结合,以解决现有模型的局限性。
- 社会与伦理考量:虽然速度提升带来了巨大便利,但也必须警惕其可能带来的潜在风险。例如,更快的生成速度可能加速虚假信息的传播,或者在AI生成内容与人类原创内容之间造成更大的混淆。因此,随着技术的进步,如何开发更强大的内容溯源、偏见检测和负责任的AI部署策略将变得更加关键。
可以说,Eso-LM不仅是语言模型领域的一次速度狂飙,更是对AI基础架构设计哲学的一次深刻反思。它提醒我们,在追逐模型规模和参数量的同时,对底层机制的创新和融合,才是推动AI走向更广泛、更负责任应用的关键。未来,我们或许将看到更多这种“混血”模型,它们不再拘泥于单一范式,而是集各家所长,共同勾勒出AI的崭新蓝图。
References
-
2025年AI大模型专题报告:Transformer架构的过去、现在和未来(2025/6/16)。未来智库。检索日期2025/6/16。 ↩︎
-
谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了(2025/6/16)。SegmentFault。检索日期2025/6/16。 ↩︎
-
KingHZ(2025/6/16)。全球首次,Transformer「混血」速度狂飙65倍,英伟达已下注。新智元。检索日期2025/6/16。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
活久见,谷歌更新了Transformer架构(2025/6/16)。虎嗅网。检索日期2025/6/16。 ↩︎
-
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强(2025/6/16)。每时AI。检索日期2025/6/16。 ↩︎