从物理宇宙到AI未来:Jared Kaplan的“愚蠢问题”与Scaling Law的深远回响

温故智新AIGC实验室

TL;DR:

Jared Kaplan,一位从理论物理领域跨界AI的先驱,凭借对“愚蠢问题”的执着探究,发现了驱动大模型能力跃升的Scaling Law。他坚信最强AI模型的价值将超越成本考量,并倡导在能力边界上构建创新应用,以解锁AI驱动的未来。

在人工智能波澜壮阔的时代浪潮中,总有一些思想的引力波,穿越喧嚣,指向核心。Jared Kaplan,Anthropic的联合创始人之一,正是这样一位在AI领域掀起巨浪的理论物理学家。他的故事,始于对宇宙最深层奥秘的好奇,最终却在一个“愚蠢”的问题中,找到了改写AI模型规则的钥匙。

从物理宇宙到AI前沿:一位探求规律者的蜕变之旅

Kaplan的早期职业生涯,是浸润在粒子、宇宙和弦理论中的。他曾是一名理论物理学家,研究兴趣横跨有效场论、粒子物理、宇宙学、散射振幅及共形场论等广阔领域。追溯这份热忱的源头,竟然是他孩提时代科幻小说激发的梦想:“我小时候就一直想搞清楚到底能不能造出超光速飞行装置,而物理看起来是实现这个目标的路径。”除了科幻的浪漫,他对宇宙本身的运作机制、宏观规律、自由意志等哲学命题也抱有深沉的兴趣。

在学术的象牙塔里,Kaplan结识了许多聪明而有深度的人,其中便包括后来与他在Anthropic共事的创始伙伴们。然而,物理研究的进展缓慢,日复一日的等待与探索让他感到沮丧甚至有些“无聊”。与此同时,身边的朋友们开始耳语:“AI正在变得非常重要。”起初,Kaplan对此是怀疑的。“AI已经搞了五十年了,支持向量机(SVM)那类东西其实也没那么有趣。”他回忆起2005年、2009年上学时接触到的AI,与他所期待的、能真正理解世界的智能相去甚远。

但命运的齿轮悄然转动。在一系列偶然与必然的交织下,他被说服,认为AI也许真的是一个值得投入的领域。“也算是运气好,认识了一些对的人,然后事情就这么发展下来了。”从对超光速飞行器的执着,到对宇宙宏观规律的探求,再到AI领域对智能本质的追问,Kaplan的转型并非简单的职业转向,而是一场由内而外的、对“理解”与“规律”永不满足的求索。他将物理学中追寻基本原理的习惯,不自觉地带入了彼时混沌未开的AI世界。

“愚蠢”问题铸就基石:Scaling Law的诞生与洞察

如果说物理学的训练赋予了Kaplan一双洞察宏观规律的眼睛,那么正是这种思维习惯,促成了AI领域最具颠覆性的发现之一——Scaling Law(扩展定律)。

“这源于我当时问了一个‘非常蠢’的问题。”Kaplan坦言。在物理学家的语境中,“蠢”往往意味着最基本、最底层、看似简单却直指核心的追问。彼时,“大数据很重要”的说法甚嚣尘上,但他却想知道:到底“多大”才叫大?数据到底有多重要?帮助到底有多大?当有人观察到模型越大效果越好时,Kaplan和他的团队继续追问:那到底会好多少?增长是不是线性的?有没有规律?

就是这些看似“愚蠢”的、刨根问底的追问,揭示了一个令人震惊又异常精确的现象:AI训练背后,确实存在着类似于物理或天文中的“规律性趋势”。“这让我们非常震惊,也让我们对AI的持续进步充满信心。”Kaplan指出,早在2019年,他们就研究了计算量、数据集大小和网络规模等多个数量级的不同情况。按照物理学的经验,只要某个规律在足够多数量级下成立,那它大概率会继续成立下去。

他们发现,无论是预训练阶段模仿人类文本、理解统计关联,还是强化学习阶段通过用户反馈优化模型,都存在着清晰的Scaling Law。Kaplan强调,这种突破并非源于研究人员突然变得更聪明,而是因为找到了一种“非常简单的方法可以系统性提升AI的性能”。他们现在所做的,正是不断重复运行这套“Scaling机器”。这种化繁为简、从底层逻辑寻找普适规律的思维,是Kaplan从物理学领域带给AI最宝贵的遗产。

解锁未来:Scaling Law下的AI能力边界与前瞻布局

Scaling Law的持续成立,为AI的未来绘制了一幅激动人心的蓝图。Kaplan习惯从两个维度理解AI的能力:一个是“适应性”,即AI能多大程度地贴近使用场景;另一个则是更有意思的X轴——AI可以完成的任务时长。

“我们观察到,随着AI能力的提升,这个时间在不断拉长。”他援引Metr.org的研究,指出AI模型可以处理的任务时长大约每7个月翻一倍。这意味着,在可预见的未来,AI不仅能完成几分钟、几小时的任务,甚至可以处理需要几天、几周、几个月,乃至几年才能完成的复杂任务。Kaplan大胆设想,未来可能会有成千上万个AI模型协作,完成现在一个完整人类组织才能完成的工作,甚至在理论物理等领域,在几天或几周内就能实现学界50年才能取得的进展。

然而,要达到这样的未来,AI仍面临一些关键挑战。Kaplan提出了三个“缺失”的关键点:

  • 真实的“组织知识”: AI不能永远像白纸一样从零学起,它们需要像在组织中工作多年的人一样,具备相关的背景知识,真正处理“知识”。
  • “记忆”: 在执行长期任务时,AI必须能持续追踪进度,建立并调用相关记忆。
  • 监督能力: AI要能理解更细微的语境,解决模糊、不明确的问题,生成更复杂、更细腻的奖励信号,从而训练出能讲真正有趣笑话、写出有感染力诗歌、做出“有品位”科研判断的AI。

基于这些洞察,Kaplan为开发者们提出了掷地有声的建议:

“去构建那些‘现在还没法完全跑通’的产品。因为AI模型正在非常快速地进化。你今天做的产品可能因为Claude 4还不够聪明而无法真正跑通,但等Claude 5来了,它可能就会成为杀手级应用。所以,我一直建议大家在AI的能力边界上做实验,因为这些边界在迅速变化。”

他还建议,要善用AI来“集成”AI,加速产品化和融入现有业务的进程,并快速找到继软件工程之后的下一个AI大规模应用的突破口。这些思考,深刻契合了Anthropic所秉持的、追求前沿模型能力释放的运营策略。

以最新发布的Claude 4为例,Kaplan透露,核心优化在于提升其作为“智能体”的表现,尤其在编程任务上,并扩展到搜索等场景。更重要的是,它增强了对“监督”信号的理解能力,使得模型更“听话”,代码质量更高。而他个人最感兴趣的则是Claude 4的“记忆”功能,这为AI解锁了越来越长时间跨度的任务处理能力。“随着时间推移,Claude会越来越像一个靠谱的协作者,承担越来越多的工作量。”

人机协作的下一篇章:广度智能与产业革新

在人机协作的未来图景中,Kaplan描绘了一个充满潜力的方向。他认为,“人类+AI”的协作在最前沿的任务中仍然不可或缺,但长期来看,越来越多的任务将能够完全自动化。

他提出智能的两种类型:一种是“深度型”,如数学,可能需要十年攻克一个定理;另一种是“广度型”,如生物学、心理学或历史,这些领域往往是靠拼图式地组合大量信息形成洞察力。而AI在预训练阶段,已经“吸收”了人类文明的几乎所有知识,其知识的“广度”远远超过任何一个人类专家。因此,Kaplan坚信,在那些“需要组合多个知识领域”的任务上,AI拥有巨大的潜力。例如,在生物学研究中,整合不同领域的专业知识以获取见解,将带来丰厚的收获。

尽管预测未来充满挑战,但Scaling Law提供了一种预测方法,预示着这种趋势将继续下去。Kaplan认为,像金融、Excel重度使用者、法律(尽管有监管限制)等领域,都是目前模型能力已解锁、但开发者尚未充分探索的“空白地带”。他将AI的整合比作“电力革命”:“电力出现时,有一个很长的采用周期,最初、最简单的使用方式不一定是最好的。大家不只想用电力替换蒸汽机,而是重塑了整个工厂的运作方式。”他强调,尽快将AI深度整合到经济的各个部分中,将产生更大的“杠杆效应”。

追根溯源:物理学思维的指引与AI的未来挑战

Kaplan坦承,物理学研究带给他的最大好处,就是去寻找最大的图景、最宏观的趋势,然后试着把它们精准可量化。面对AI领域常有人说“学习在以指数级速度收敛”,他会提出一个“特别笨”的问题:你确定是指数?会不会其实是幂律、二次函数?

“虽然问题听起来傻,但其实正是这种‘较真’带来了巨大的价值。因为你只有把趋势弄得足够精确,才能真的理解‘怎么做才能突破’,也才能知道你有没有真正做到。”

这种诊断性思维让Kaplan对Scaling Law的“失效”抱持着一种独特的看法。对他而言,Scaling Law更多是一个判断训练是否正常的诊断工具。如果Scaling Law不再成立,他的第一反应通常是:“很可能是我们在训练过程中‘搞砸了’,比如可能是网络架构设计错了,或者训练过程存在某种瓶颈。”因为他过去五年的经验是:“每次我们以为Scaling Law失效的时候,其实都是我们的训练方法出现了问题。”这种对底层机制的深刻信任,支撑着他对AI持续进步的信心。

面对未来算力可能越来越紧缺的挑战,Kaplan指出,当前的AI效率“非常低”。但他认为,由于AI价值极高,业界会争先恐后地“解锁最强模型”,同时也在努力提升训练和推理效率,逼近能力上限。他预测,长期来看,训练和推理成本将显著降低,甚至可能会看到精度大幅降低(如FP4、三值表示)以提高效率。这种“杰文斯悖论”式的困境——AI能力越强,人们反而越依赖它,需求增长速度可能超过成本下降——是AI发展中一个引人深思的现象。Kaplan认为,AI越能代替人类完成各种工作,人们就越愿意为“能力顶尖”的模型买单。他倾向于相信,AI的大部分价值可能还是来自最强模型。

对于在AI时代如何保持“不可替代”,Kaplan给出了他的建议:“了解这些模型的工作原理,并能高效地将其整合到实际场景中,将是非常宝贵的技能。此外,能够在‘能力前沿’构建产品也是一种巨大的价值。”

从宇宙的宏大尺度到AI的微观参数,Jared Kaplan始终是那位手持“愚蠢问题”之钥的探求者。他的智慧不仅在于发现了Scaling Law,更在于他以物理学的严谨和哲学家的深思,为AI的未来发展指明了方向,也为每一个身处变革浪潮中的人提供了宝贵的启示。正如他所言,真正有趣的,是那些经验趋势本身,而对它们深层的理解和解释,或许需要我们继续提问,继续探索。

引用