TL;DR:
OpenAI前副总裁Lilian Weng发布深度长文,系统拆解了AI行业赖以生存的Scaling Laws。核心洞察表明:曾指挥千亿美金流向的幂律并非真理,而是一场基于数据统计偏差、实验规模局限与优化器“假收敛”的精密错觉。
技术原理的“簿记”陷阱与优化黑箱
Scaling Laws曾被视作AI领域的“物理定律”,它将玄学的模型训练转化为可精确计算的财务报表。然而,翁荔在其博客《Scaling Laws, Carefully》中展示了这些定律是如何在微小的细节中崩塌的。
最令人讽刺的发现在于,DeepMind著名的Chinchilla结论在重构过程中被发现存在严重的“方法论Bug”。研究发现,其优化器在损失函数计算时误用了均值而非求和,导致优化过程在极小的数值下提前截断,输出了一组非最优的参数配比。这种基于“簿记误差”的训练指导,在过去两年间,无意中引导了整个行业对模型与数据分配的误判。此外,Embedding层在参数量统计中的口径差异,也让Kaplan与Chinchilla两支顶级团队在“模型该大还是数据该多”的根本问题上得出了完全相反的结论。
幂律外推的本质风险
Scaling Laws之所以脆弱,是因为它本质上是一种对小规模实验数据的过度外推。幂律指数(α/β)在万亿参数级别是否依然稳定?答案是高度存疑的。正如文中指出的交互式模拟器所揭示的那样,当拟合区间、损失精度稍作变动,预测曲线即呈现剧烈波动。这种非线性本质意味着,大模型公司长期以来基于小模型线性回归来预估“通往AGI所需算力”的逻辑,本质上是在用欧几里得几何去解释非欧空间——当规模跨越几个数量级时,常数即变量。
数据荒原:Scaling Laws的最终归宿
如果说参数统计和数学误差是“内部矛盾”,那么高质量文本数据的枯竭则是Scaling Laws无法逾越的“外部围墙”。随着2026年高质量语料的耗尽,经典公式的前提——“数据无限供应”——已彻底失效。
行业正在从“堆规模”转向“重质量”:
- 强化学习(RL)的崛起:如DeepSeek R1与OpenAI o系列,通过在逻辑密集型任务中引入自我博弈,产生非传统的人工训练信号,绕过了静态文本数据的限制。
- 推理侧的计算扩展:通过测试时计算(Test-time compute)让模型在决策过程中多思考,以计算成本换取性能提升。
- 合成数据与惩罚机制:新一代公式引入了针对重复训练的惩罚项,暗示了未来的增长动力将不再源于单纯的数据量扩充,而是源于数据利用的效率优化。
未来趋势:从“算力炼金”到“工程科学”
对于商业资本而言,Scaling Laws的神话破灭并不意味着投资价值的降低,而是意味着估值模型的重构。如果未来AGI的胜负手不再仅取决于谁能买到最多的H100,而是取决于谁能通过精确的损失函数校准、更先进的权重衰减算法以及更高效的合成数据链条来压榨出模型的每一分潜力,那么AI竞争的下半场将从资本密集型转向技术工程密集型。
Lilian Weng的这篇文章不仅是对过去五年AI研发路径的修正,更是一声警钟:在一个尚未完全理解其数学物理机理的领域,盲目的工程盲从已不可持续。人类文明在追求通用人工智能的道路上,必须学会处理这种“已知与未知的叠加态”。