超越顶会:一篇博客文章如何颠覆AI研究的价值衡量

温故智新AIGC实验室

一篇未经同行评审的博客文章,因其在深度学习优化器上的卓越实测效果,不仅为作者赢得了OpenAI的青睐,更引发了AI学术界对研究影响力衡量标准及其与传统论文发表模式之间张力的深刻反思。这起事件以及后续的行业验证,揭示了在AI飞速发展的时代,实用价值和工程落地正日益成为衡量技术突破的关键。

在人工智能领域,顶会论文向来是衡量研究水平和职业发展的“硬通货”。然而,近期一则消息却打破了这一常规:一名名叫凯勒·乔丹(Keller Jordan)的研究员,仅凭一篇名为《Muon: An optimizer for hidden layers in neural networks》的个人博客文章1,而非正式的同行评审论文,便成功获得了OpenAI的Offer,甚至有传闻称,这项技术已应用于GPT-5的训练工作。这一看似“非主流”的成功案例,不仅让Muon优化器迅速走红,更引发了一场关于AI研究范式、学术诚信与实际影响力之间关系的激烈辩论。

技术原理解析与实效验证

Muon优化器之所以能够获得OpenAI的青睐,其根本在于它在实际训练中展现出的惊人效率。Muon专门为神经网络的隐藏层设计,并在多个热门任务上刷新了训练速度记录。

从实际表现来看,Muon的成绩斐然:

  • 在CIFAR-10数据集上,达到94%准确率的训练时间从3.3 A100秒缩短到2.6 A100秒,显著提升了约21%。
  • 在NanoGPT的“精炼网页(FineWeb)”任务中,达到验证损失3.28的速度提升了1.35倍。
  • 在模型参数规模扩展至7.74亿和15亿时,Muon的训练速度优势依然显著。
  • 使用Muon训练一个15亿参数的Transformer模型,在HellaSwag任务中仅用10小时(8张H100组成的GPU集群)便达到了GPT-2 XL的性能水平,而使用AdamW则需要13.3小时才能达到相同效果,这相当于Muon将训练时间缩短了约25%

图1和图2清晰地展示了Muon在样本效率和实际训练时间上超越AdamW等主流优化器的表现,尤其在更大规模模型上,其时间效率优势更为突出。

图 1 按样本效率比较优化器

图 2 按挂钟时间比较优化器

图 3 Muon 与 AdamW 在 15 亿参数短时间训练中的对比

从设计原理上讲,Muon的核心机制在于其对神经网络权重更新的独特处理方式。它首先通过_带动量的随机梯度下降(SGD-momentum)生成初步的更新矩阵,然后对每个更新矩阵执行一次_牛顿-舒尔茨(Newton-Schulz,NS)迭代处理,最终再将其应用于模型参数。

具体来说,NS迭代的作用是对更新矩阵进行近似正交化。其公式表示为: X = X(3I - X^2)/2

这意味着,Muon将SGD-momentum得出的更新矩阵,替换为与之最接近的“半正交矩阵”。这种近似正交化操作有助于稳定训练过程,避免梯度爆炸或消失,并可能促进模型更好地收敛,尤其是在深度网络中。

学术范式之辩:影响力与论文的权衡

凯勒·乔丹的成功并非偶然,其背后是对现有AI学术发表机制的深刻批判。他早在今年2月就公开表示,之所以没有为Muon撰写正式的arXiv论文,是因为他根本不相信“写出一篇数据漂亮、图表华丽的优化器论文”与“这个优化器实际有没有用”之间有什么必然联系。对他而言,“我只相信实测跑分。”

这种观点在AI界并非孤例。Hyperbolic Labs联合创始人、同时也是Muon合作者的金雨辰(Yuchen Jin)在X平台上分享了凯勒的经历,并感慨道:

“很多博士(包括曾经的我)常常陷入一个误区:认为在顶级会议上发表论文就是最终目标。但‘发表’并不等于‘影响力’。Muon只是篇博客文章,却帮Keller拿到了OpenAI的offer——现在他可能正在用它训练GPT-5。”2

前谷歌研究员Hieu Pham也对此事评论称,ResNet、Seq2Seq、Adam、Attention、Transformers、MoE等经典成果固然以论文形式出现,但“曾几何时,‘发表论文’就等于‘产生影响’……真正的问题,是我们没有意识到这个时代已经过去了。”他进一步指出,就优化器而言,“行业已经有成千上万篇关于优化器的论文发表了,但真正推动SOTA(最优性能)前进的,也就只有一次——从Adam到AdamW。其他所谓的进步,基本都是这两个的改进实现,比如FSDP。因此,我们真的应该停止再写这类论文了。”3

凯勒的犀利言辞——“几乎所有优化器的论文都是‘假的’……如果你也打算再写一篇这样的‘假优化器’论文,拜托别引用Muon。我不需要你的引用。”4——虽然引人注目,却也反映出一种日渐增长的共识:在AI技术以指数级速度迭代的当下,传统学术评审和发表周期冗长,可能导致研究成果在面世时便已“过时”,或被淹没在海量的投稿中,难以被真正关注和应用。这种对“实际效果大于学术装饰”的坚持,正挑战着“论文至上”的学术生态。

行业验证与未来路径的重塑

Muon的影响力并未止步于凯勒的个人成功。更进一步的验证来自中国领先的大模型公司月之暗面(Moonshot AI)。该团队对Muon进行了深入研究,并开源了改进版Muon优化器,发现并证明了Muon方法的_“缩放法则(Scaling Law)”_,这意味着其性能优势可以扩展到更大规模的模型训练中。通过改进,月之暗面团队实现了比AdamW锐减48%的算力需求,从而大幅降低了大型模型训练的成本和时间56。这一进展无疑为Muon的实用价值提供了强有力的行业背书,并暗示了头部机构正加速布局新型优化器研发。

凯勒·乔丹的案例与月之暗面对Muon的进一步验证,共同勾勒出AI研究领域正在发生的深刻变革。它并非全盘否定学术研究的价值,而是提醒研究者和机构,在AI高速发展的今天,影响力的来源正在多元化。一篇能够解决实际问题、加速模型训练、降低算力消耗的博客文章或开源实现,其价值可能远超一篇仅仅在理论上漂亮的顶会论文。

这与另一家大模型公司DeepSeek的崛起路径不谋而合。DeepSeek同样走出了一条“技术效果优先”的成名之路:没有高调预热,没有复杂包装,仅仅凭借实打实的性能和稳定表现,便在激烈的大模型竞赛中杀出重围,迅速赢得社区认可。

这些案例表明,AI研究的未来可能不再仅仅依赖于传统的学术发表,而是更加强调以下几个方面:

  • 实际性能与工程落地能力:优化器、算法等底层技术,其真正价值体现在能否显著提升模型性能或降低训练成本。
  • 快速迭代与开源共享:通过博客、GitHub等平台,研究者可以更快地分享成果,接受社区的即时反馈和验证。
  • 跨界协作与产业应用:学术界与工业界的界限日益模糊,技术成果的价值在很大程度上取决于其在真实世界中的应用潜力。

凯勒·乔丹的故事,以及Muon在产业界的验证和发展,或许只是这一转变的开始。它迫使我们重新思考:在人工智能这个以效率和规模为核心的领域,什么才是真正值得投入时间的研究?是一篇“看起来很强”的论文,还是一个“跑得足够快”的模型?答案可能不再是单一的。追求影响力,而非仅仅光鲜的头衔,正成为新一代AI研究者的核心驱动力。

References


  1. Keller Jordan (2025/6/17)。Muon: An optimizer for hidden layers in neural networks。个人博客。检索日期2025/6/17。 ↩︎

  2. Yuchen Jin (2025/6/17)。X帖子。X。检索日期2025/6/17。 ↩︎

  3. Hieu Pham (2025/6/17)。X帖子。X。检索日期2025/6/17。 ↩︎

  4. Keller Jordan (2025/6/17)。X帖子。X。检索日期2025/6/17。 ↩︎

  5. 月之暗面改进并开源了 Muon 优化算法,对行业有哪些影响?(2025/2/24)。知乎。检索日期2025/6/17。 ↩︎

  6. 开源赛道太挤了!月之暗面开源新版Muon优化器 | 机器之心(2025/2/24)。机器之心。检索日期2025/6/17。 ↩︎