TL;DR:
深度学习的“扩展定律”(Scaling Laws)并非近期发现,而是横跨数十年科学探索的经验累积,其深远的历史根源揭示了AI性能增长的根本机制。这一定律不仅驱动着当前大模型时代的商业竞争与巨额投资,更引发了对科学发现本质、技术演进路径及人类智能边界的哲学反思。
人工智能领域正经历前所未有的加速发展,大模型(Large Language Models, LLMs)的能力边界不断被刷新。在这场技术浪潮的中心,一个被奉为“第一性原理”的核心概念——扩展定律(Scaling Laws)——扮演着至关重要的角色。它量化地揭示了模型性能与算力、数据、参数量等资源投入之间的幂律关系,成为指导当下和未来大模型构建的“北极星”。然而,近期的一次“AI考古”行动,却将这一定律的真正起源追溯至远超想象的久远年代,甚至引发了对深度学习根基的深刻再审视。
OpenAI联合创始人、总裁Greg Brockman对贝尔实验室1993年的一篇NeurIPS论文表示认同,称其结果“跨越了多个数量级和几十年的时间,经历了时间的考验,可以说揭示了深度学习的根本。”这不仅挑战了人们对扩展定律起源于2020年OpenAI或2017年百度的普遍认知,更将AI发展史的叙事向前推进了三十余载,同时也点燃了对科学发现本质的哲学思辨。
技术原理与深层演进
扩展定律的核心在于其可预测性:在足够大的规模下,增加模型尺寸、数据量或计算量,模型性能将按照可预测的幂律关系持续提升。这为“大力出奇迹”的大模型范式提供了坚实的理论(或经验)支撑。
1993年贝尔实验室的论文《Learning Curves: Asymptotic Values and Rate of Convergence》1正是这一原则的早期印证。该研究者在不同大小的数据集和模型上训练分类器,并拟合了幂律,发现模型的错误率与训练数据量在对数曲线上呈现出规律性,从而能够预测在特定训练量下新网络的表现。论文明确指出:“模型的规模扩大,AI的智能会越来越强”,这正是扩展定律的雏形。
更深层次的追溯显示,扩展定律的理念并非凭空出现。早在上世纪50年代末,Frank Rosenblatt在1958年的感知器(Perceptron)论文中就已给出了清晰的学习曲线2。Vladimir Vapnik,这位统计学习理论(Statistical Learning Theory, SLT)的奠基人之一,据称在60年代便研究过样本大小与性能的扩展关系3。日本神经科学家甘利俊一(Shun-ichi Amari)在1992年的论文《A Universal Theorem on Learning Curves》4中,更是普适地证明了学习曲线的渐近行为,提出预测熵随训练样本数 t
增加而满足 ~d/t
的规律。此外,心理学领域对“学习曲线”的探索则可以追溯到更早5。
这些历史脉络共同描绘了一幅画卷:扩展定律并非灵光乍现的顿悟,而是横跨心理学、统计学、机器学习等多个学科,历经数十年理论与实践反复印证的经验定律。它在不同的技术阶段以不同的面貌出现,直到近年来,随着GPU算力、海量数据和先进模型架构的汇聚,才在深度学习领域以“Scaling Laws”之名被重新大规模验证和广泛应用。
产业版图与商业竞速
扩展定律的“重见天日”及其在现代深度学习中的验证,对整个AI产业生态产生了颠覆性影响。从商业敏锐度的角度看,它成为指引AI巨头投入巨资的核心逻辑。
- 投资驱动力:既然性能可以随着规模投入而提升,那么掌握更多算力、更大规模的数据集和更复杂的模型架构,就意味着在AI能力竞赛中占据先机。这直接促使了OpenAI、Google、Meta等公司进行数百亿美元的巨额投入,构建超大规模AI基础设施。
- 市场壁垒:扩展定律的有效性,无形中为掌握稀缺资源(如顶尖芯片、海量高质量数据、超级计算集群)的企业设置了高昂的市场进入壁垒。少数能够承受这种规模化投入的巨头,自然成为大模型竞赛的领跑者,这进一步加剧了AI领域的资源集中化趋势。
- 商业模式创新:基于扩展定律,AI模型的性能可预测性使企业能够更好地规划产品路线图,开发出如GPT-4等通用型强大模型,并通过API服务、企业级解决方案等形式将其能力商业化,催生了“模型即服务”(MaaS)的新商业范式。对潜在性能的预判,也使得初创公司在有限资源下,能更精准地衡量投入产出比,优化研发策略。
正如贝尔实验室的先驱们在30年前所预见的,对分类器性能的可靠预测,能“将资源分配给最有潜力的候选分类器”,这在今天的大模型开发中依然是核心的实用性导向。
哲学反思与科学韧性
扩展定律的“再发现”不仅仅是一个技术事件,更是一次对科学研究本质的深刻哲学反思。
- 科学的累积性与循环性:它提醒我们,许多“新”突破往往是旧有思想在新的技术背景和条件下被重新发现、验证和放大的结果。科学并非一条直线式前进的道路,而更像一个螺旋上升的过程,在不同时代背景下,那些被遗忘或未能充分发挥潜力的思想,可能因外部条件的成熟而焕发新生。
- 超前视野与集体失忆:贝尔实验室的科研人员,以及Vapnik、Amari、Rosenblatt等先驱在几十年前便洞察到的学习规律,展示了他们超前的科学洞察力。然而,AI领域周期性的“寒冬”和“春天”,也使得某些重要的早期成果被暂时遗忘或未得到充分重视。现代AI社区对历史的“集体失忆”,以及近期“AI考古”的必要性,促使我们反思如何更好地建立跨时代的知识传承和共享机制。
- 经验与理论的张力:扩展定律至今仍主要被视为一个强大的经验定律,其深层理论解释仍在积极探索中。这反映了科学进步中,实用性的经验观察往往先行于完备的理论构建,两者相互促进,共同推动学科发展。
Greg Brockman强调其揭示了“深度学习的根本”,正是对这种跨越时间和学科的科学韧性的肯定。
未来挑战与前瞻洞察
展望未来3-5年,扩展定律仍将是指导AI发展的重要力量,但其边界和更深层的影响也将逐步显现。
- 物理与理论瓶颈:随着模型规模的持续膨胀,算力消耗与环境成本日益严峻。物理世界对计算和能源的供给存在极限。同时,我们必须审视扩展定律的理论边界:是否存在某个临界点,使得纯粹的规模扩展不再带来等比例的性能提升,甚至可能遭遇收益递减?届时,更高效的算法、新的模型架构、以及对数据效率的极致优化将变得更为关键。
- 能力涌现与AGI路径:扩展定律驱动下的规模化,催生了诸多令人惊叹的能力涌现(Emergent Abilities)。这种现象表明,简单的量变可能导致复杂的质变,为通往通用人工智能(AGI)提供了潜在路径。未来的研究将不仅关注模型性能的量化提升,更会聚焦如何通过规模化诱发更高级的认知能力、推理能力和泛化能力。
- AI安全与伦理治理:随着模型规模和能力边界的不断拓展,由扩展定律所支撑的AI系统将更加强大,其对社会的影响也愈发深远。随之而来的AI安全、偏见、透明度与可控性等伦理与治理挑战将空前突出。我们需要在全球范围内构建一套健全的AI治理框架,以确保技术发展与人类福祉相一致。
- 跨领域融合:未来的AI发展将不再局限于单一模型,而是走向多模态、具身智能、AI Agent等更复杂的系统。扩展定律的理念将如何融入这些新范式,指导多模态模型的融合训练,以及如何赋能自主系统在物理世界中高效学习和决策,是亟待探索的前沿方向。例如,如何扩展具身智能的“学习曲线”,使其在现实世界的交互中也能展现出可预测的性能增长,将是下一阶段的重要议题。
扩展定律作为深度学习的“第一性原理”,其历史根基的揭示,不仅是对先驱们智慧的致敬,更是对当下AI繁荣背后深层逻辑的深刻理解。它不仅是一项技术规律,更是连接过去、现在与未来的桥梁,不断启发我们重新审视智能的本质,并在技术、商业、社会、伦理的交汇处寻求平衡与突破,最终塑造人类文明的未来进程。
引用
-
Learning Curves: Asymptotic Values and Rate of Convergence·NeurIPS Proceedings·Corinna Cortes, L. D. Jackel, Sara A. Solla, Vladimir Vapnik, John S. Denker (1993)·检索日期2025/9/2 ↩︎
-
The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain·Psychological Review·Frank Rosenblatt (1958)·检索日期2025/9/2 ↩︎
-
The Nature of Statistical Learning Theory·Springer-Verlag·Vladimir Vapnik (1995)·检索日期2025/9/2 ↩︎
-
A Universal Theorem on Learning Curves·Neural Networks·Shun-ichi Amari (1992)·检索日期2025/9/2 ↩︎
-
Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘·机器之心·泽南、Panda (2025/9/2)·检索日期2025/9/2 ↩︎