大模型「紧箍咒」:Mira Murati实验室的流形优化,如何重塑AI训练的基石?

温故智新AIGC实验室

TL;DR:

Thinking Machines Lab发布“模块流形”研究,提出通过流形优化对大模型权重进行“预防式”约束管理,旨在从根本上解决AI训练中的数值不稳定性问题,预示着更稳定、高效且具解释性的AI模型训练范式,有望重塑AI产业生态。

在人工智能领域,大型语言模型(LLMs)的训练如同一次高风险的远航,其内部数万亿参数的微妙平衡,决定着模型的性能与稳定性。传统上,工程师们常以“救火”姿态,通过Layer Norm等手段在训练过程中校正数值异常。然而,由OpenAI前CTO Mira Murati联合创立的Thinking Machines Lab,近日以其最新研究“模块流形”(Modular Manifolds)1234向我们展示了一种截然不同的“预防式”策略——为大模型戴上“紧箍咒”。这不仅是算法层面的精进,更是对AI训练哲学的一次深刻反思,其影响将深远地触及技术前沿、商业格局乃至我们对智能本质的理解。

技术原理与创新点解析

大模型训练的核心挑战之一在于管理其庞大的参数空间,确保权重、激活值和梯度在迭代过程中不发生数值溢出或消失。现有方案如激活向量归一化(Layer Norm)和梯度谱归一化(如Muon优化器)多是在事后或局部对数值进行调整,如同在钢丝上走时不时需要平衡的杂技演员。

“模块流形”提出的创新,在于将权重张量从一开始就约束在一个特定的数学“流形”(submanifold)上。流形,可理解为一个局部平坦的弯曲几何空间。通过直接在流形上设计优化算法,而非简单地将偏离的参数投影回来,模型在训练过程中就能始终保持在“健康”的参数区间内,从而实现训练过程的根本性稳定与可解释性。

其核心创新点包括:

  • 流形优化器的几何范式:不同于传统的欧几里得空间优化,流形优化直接在参数所在的几何结构上进行。它定义了切空间(tangent space)和距离度量,确保每一步参数更新都在流形的“表面”进行,从而使学习率与实际参数位移更紧密关联。文章详细推导了如何通过拉格朗日乘数法,将原始梯度投影到切空间,得到最优更新方向,并结合“回缩映射”(retraction map)将更新后的权重拉回流形1
  • “Manifold Muon”的构建:针对Transformer中权重矩阵(W)对输入向量的“拉伸效应”,研究选择Stiefel流形(即正交矩阵集合,使所有奇异值趋近于1)作为约束,并以谱范数(spectral norm)作为距离度量。这种组合旨在确保权重矩阵既不使输出过大或过小,也不导致输出向量剧烈变化。通过求解一个凸优化问题,实现了流形约束下的Muon优化器,并经实验验证了其可行性1
  • “模块流形”的系统性理论:更具前瞻性的是,“模块流形”理论将上述单层权重约束的逻辑推广到整个神经网络。它提供了一种抽象机制,用于指导如何在网络的各个层之间合理分配学习率。这依赖于对网络输出对权重的Lipschitz敏感性的理解,通过流形约束能够更精准地把握这种敏感性。这意味着未来的大模型优化将从局部调整走向全局、系统性的协调。

简而言之,这项研究从根本上改变了我们优化神经网络参数的思路:从“出问题后修复”转向“预防问题发生”。

产业生态影响与商业价值

这项基础性突破对AI产业生态的影响是深远的,尤其是对于那些投入巨资训练和部署大型基础模型的科技巨头和初创公司而言。

  • 训练成本与效率的优化:大模型训练是极度耗费算力与时间的活动。数值不稳定性常常导致训练崩溃、收敛缓慢或需要大量人工干预。通过“模块流形”提供的预防性机制,模型训练将变得更稳定、高效,降低失败率。这意味着更少的计算资源浪费、更快的模型迭代速度,直接转化为数十亿美元的成本节约和更强的市场竞争力。估值840亿的Thinking Machines Lab的投入,正是看中了这种底层优化带来的巨大商业价值2
  • 提升AI模型的可靠性与可控性:在一个对AI安全性和可控性日益重视的时代,模型的稳定性是基石。“模块流形”通过将参数限制在“健康”区间,有望减少模型行为的不可预测性,提高模型的鲁棒性和可解释性。这对于企业级AI应用、关键基础设施中的AI部署以及未来AGI的发展至关重要,有助于构建更值得信赖的AI系统。
  • 加速创新与产品落地:当研究人员和工程师不必再将大量精力用于解决底层数值稳定性问题时,他们可以更专注于模型架构创新、新能力开发和实际应用场景的拓展。这无疑会加速AI技术的商业化进程,推动更多创新产品和服务的诞生。
  • 重塑优化器领域的竞争格局:作为一种全新的优化范式,“模块流形”可能激发新一轮优化器算法的研发热潮。那些能够有效集成并拓展流形优化思想的框架或公司,将在未来的AI基础设施层竞争中占据优势。它不仅优化了现有大模型,更为下一代AI模型的设计和训练提供了新的思考维度

未来发展路径与哲学深思

“模块流形”不仅仅是一个技术论文,它代表了AI领域发展的一个重要方向:从经验主义的工程修补走向更深层次的数学与几何原理探究。

  • 通向更深层智能的基石:如果未来的通用人工智能(AGI)需要处理极其复杂和大规模的数据与模型,那么底层的稳定性、效率和可解释性将是不可或缺的基石。流形优化这类方法,通过对模型学习过程施加“哲学层面的约束”,或许能为构建更安全、更可控的AGI系统提供理论和实践上的支持。这正如同为孙悟空戴上紧箍咒,并非为了限制其能力,而是为了引导其力量向善,服务于更宏大的目标。
  • 优化理论的新范式:这项研究可能预示着AI优化理论的范式转变。在未来3-5年内,我们可能会看到更多基于几何、拓扑等高级数学概念设计的优化算法,它们将取代或补充当前基于一阶/二阶梯度信息的优化器。这要求AI研究者具备更深厚的数学功底,并促进跨学科研究的进一步融合。
  • AI伦理与治理的内生化:将“健康”参数区间内生化到训练过程中,可以视为一种将部分伦理考量融入技术设计本身的尝试。通过限制模型参数的极端行为,减少潜在的偏见放大或有害输出,从而在模型层面实现某种程度的“自律”。但这并不意味着伦理治理的终结,反而提出了更高要求:如何定义“健康”区间,如何选择流形和度量方式,本身就蕴含着深刻的价值判断。
  • 硬件与软件的协同进化:更复杂的流形优化算法,尤其是在整个网络层面实现“模块流形”,可能会对AI芯片的设计提出新的要求,例如对特定几何运算的硬件加速支持。这预示着AI软件与硬件之间将迎来更紧密的协同进化,共同推动AI算力边界的拓展。

“从‘救火’到‘预防’,这不仅仅是技术路线的转变,更是人类在探索智能边界时,对秩序与自由、力量与约束之间关系的一次哲学追问。”

尽管流形优化可能带来更高的计算复杂度,其长期价值在于对AI系统稳定性和可控性的根本性提升。Thinking Machines Lab的“模块流形”无疑为我们打开了一扇窗,瞥见了下一代AI训练的可能面貌:一个更加稳健、可预测,也更能体现人类智慧与控制力的智能时代。它的影响,将从实验室的深处,逐渐渗透到每一项AI应用,重塑我们的科技图景。

引用


  1. 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」·36氪·(未知日期)·检索日期2025/9/28 ↩︎ ↩︎ ↩︎

  2. 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」·新浪科技·(未知日期)·检索日期2025/9/28 ↩︎ ↩︎

  3. 翁荔陈丹琦加盟的840亿AI公司,公开第二篇论文·知乎专栏·(未知日期)·检索日期2025/9/28 ↩︎

  4. Modular Manifolds·Thinking Machines Lab Blog·Jeremy Bernstein·(未知日期)·检索日期2025/9/28 ↩︎