TL;DR:
作为Anthropic的联合创始人,理论物理学家Jared Kaplan凭借对“蠢问题”的执着探寻,揭示了人工智能的底层规律“Scaling Law”,深刻影响了AI模型的发展路径。他以物理学的严谨与宏大视野审视AI的未来,不仅引领着最强模型Claude的演进,更鼓励行业以颠覆性思维拥抱智能新范式。
2005年,当Jared Kaplan在大学课堂上接触到彼时的主流AI技术——支持向量机(SVM)时,他并不觉得有趣。这位从小受科幻小说熏陶,立志“搞清楚能不能造出超光速飞行装置”的理论物理学家,彼时正沉浸于粒子物理、宇宙学和弦理论的深邃世界。然而,当物理研究的进展渐渐令他感到沮丧和“无聊”时,身边朋友口中“正在变得非常重要”的AI,最终撬动了他长达十多年的学术生涯。这并非一场心血来潮的转身,而是一位智者对科学前沿效率与深度的重新考量,也是他追寻宇宙终极奥秘、理解万物运行规律的另一种延续。
从宇宙深处到AI前沿:一个物理学家的转型之路
Jared Kaplan的职业生涯始于对物理世界本源的无尽好奇。童年时,母亲的科幻小说点燃了他对超光速旅行的幻想,而物理学似乎是唯一能解答这一“狂想”的路径。更深层次的,他对“宇宙从何而来”、“事物如何运作”、“人是否有自由意志”这些宏大命题充满痴迷。在学术象牙塔中,他有幸结识了一群“非常聪明、非常有深度的人”,其中就包括后来Anthropic的几位联合创始人。对这些思想碰撞的关注,为他未来的转向埋下了伏笔。
然而,物理学的探索之路虽深远,却也伴随着漫长的等待与缓慢的进展。在大型强子对撞机的高能粒子物理、宇宙学、弦理论之间辗转多年后,Kaplan渐渐感到一种求索的倦怠。与此同时,他身边的一些物理学家和计算机科学家朋友不断向他力荐AI的潜力。最初的Kaplan是怀疑的,他认为“AI已经搞了五十年了”,接触到的不过是些“没那么有趣”的SVM。但最终,他被“说服了”,认为AI“也许真的是一个值得投入的领域”。正如他所言,这其中也带着些“运气好,认识了一些对的人”,就这样,一位理论物理学家踏入了人工智能这个全然不同的新宇宙。
探寻智能的“宏观规律”:Scaling Law的诞生与震撼
Jared Kaplan身上烙印着物理学家特有的思维钢印:习惯从全局出发,提出最简单、最基础、甚至看似“愚蠢”的问题,然后试图将其精准量化。正是这种刨根问底的“较真”,促成了人工智能领域最具革命性的发现之一——“Scaling Law”(尺度定律)。
在AI发展早期,坊间流行着“大数据很重要”的说法。而Kaplan则像一个严谨的物理实验者,追问最根本的问题:“到底多大才叫大?数据到底有多重要?帮助到底有多大?”同样地,当人们观察到“模型越大效果越好”时,他又追问道:“那到底会好多少?增长是不是线性的?有没有规律?”
正是这些看似“愚蠢”的问题,引领Kaplan及其团队在2019年发现了一个“非常精确又令人惊讶的现象”:AI训练背后确实存在着类似于物理或天文中的“规律性趋势”。这一发现让他们“非常震惊”,也为AI的持续进步注入了前所未有的信心。他们研究了计算量、数据集大小和网络规模在多个数量级下的表现,得出的结论如同物理定律般普适:“只要某个规律在足够多数量级下成立,那它大概率会继续成立下去。”
这种洞察力不仅限于预训练阶段。大约四年前,另一位研究员Andy Jones将GPT-3的预训练Scaling与AlphaGo的强化学习(RL)Scaling联系起来,在简化的棋类游戏Hex上,发现了清晰的线性趋势,印证了RL阶段同样存在Scaling Law。Kaplan强调,AI的持续进步并非缘于研究人员突然变得更聪明,而是因为“我们找到了一种非常简单的方法可以系统性提升AI的性能,我们现在就是在不断重复运行这套‘Scaling机器’。”这正是Scaling Law最深刻的启示——它揭示了智能增长的内在可预测性与工程可控性。
延展智能边界:Scaling Law的深层意义与未来图景
Scaling Law的实际意义正在逐步解锁AI的广阔能力。Kaplan以两个维度来理解AI的能力:一是“适应性”(Flexibility),即模型能多大程度“贴近”各种使用场景;二是“任务时长”(Time Saved),即AI可以自主完成的任务时长。AlphaGo虽然在围棋上登峰造极,但其适应性却很低。而大模型的发展,正在让AI在真实世界中处理越来越多模态的数据,向Y轴更高的方向拓展。
然而,真正让Kaplan感到兴奋的,是X轴的延展。Metr.org的研究发现了一个惊人的Scaling趋势:AI模型可以处理的任务时长大约每7个月翻一倍。这意味着,在可预见的未来,AI将不再局限于几分钟、几小时的任务,而是能处理需要几天、几周、甚至几年才能完成的复杂任务。Kaplan大胆设想,未来可能会有成千上万个AI模型协作,完成一个完整人类组织才能完成的工作,甚至在几天或几周内,就能取得整个科学界数十年才能推进的理论物理研究突破。
为了实现这一未来,Kaplan认为AI还需要补齐三个关键能力:具备真实的“组织知识”,像在公司里工作多年的人一样理解背景知识;拥有“记忆”,能持续追踪长期任务进度并调用相关记忆;以及更强的“监督能力”,能理解细微语境,解决模糊问题,甚至生成复杂细腻的奖励信号,训练AI讲“真正有趣的笑话”或做出“有品位”的科研判断。
拥抱未至之境:对开发者与行业的先锋洞察
基于对Scaling Law的深刻理解,Jared Kaplan向AI领域的开发者和创业者提出了极具前瞻性的建议:
首先,**“去构建那些现在还没法完全跑通的产品。”**他指出,AI模型正以惊人的速度进化,今天因Claude 4不够智能而无法实现的杀手级应用,很可能在Claude 5发布后就迎刃而解。因此,他建议开发者应勇于在AI的能力边界上做实验,因为这些边界正在迅速扩张。
其次,**“用AI来帮助我们更好地‘集成’AI。”**AI发展的速度之快,已成为将其融入产品、公司和科研事业的瓶颈。通过AI辅助产品化和集成化,能够显著加速这一进程,释放更多价值。
最后,**“快速找到AI大规模应用的突破口。”**编程已成为AI的爆发点,下一个像软件工程一样在极短时间内爆发的领域是什么?这需要行业共同探索。Kaplan认为,目前模型能力已解锁,但开发者尚未充分探索的“空白地带”,往往是那些“技术门槛高”、“主要靠电脑和数据打交道”的领域,如金融、法律以及Excel重度使用者等。他将这比作“电力革命”:电力最初并非简单替换蒸汽机,而是重塑了整个工厂的运作方式。AI也应如此,尽快深度整合到经济的各个部分中,才能产生更大的“杠杆效应”。
谈及Claude 4的核心优化,Kaplan透露,除了在编程和搜索任务上作为“智能体”的表现大幅提升,Claude 4最令人兴奋的莫过于其“记忆”能力的加强。这意味着它能处理更长时间跨度的复杂任务,未来将能像一个可靠的协作者,承担越来越繁重的工作量。
Kaplan还深入探讨了“广度型”AI的巨大潜力。他认为,相较于像数学这类需要十年磨一剑的“深度型”智能,AI在预训练阶段已“吸收”了人类文明的几乎所有知识,拥有远超任何人类专家的“广度”。因此,在生物学、心理学或历史等需要“组合多个知识领域”以形成洞察力的任务上,AI将展现出独特的巨大优势。他坚信,在那些需要整合人类专家都未曾掌握的知识才能解决的问题上,“广度型”AI将是无价之宝。
“愚蠢”问题背后的智慧:物理思维如何塑造AI
Jared Kaplan的物理学背景,无疑是他能发现Scaling Law并持续引领AI前沿的关键。他坦言,物理研究带给他最大的财富,就是“去寻找最大的图景、最宏观的趋势,然后试着把它们精准可量化”。当AI研究者还在讨论“学习以指数级速度收敛”时,他会追问一个“特别笨”的问题:“你确定是指数?会不会其实是幂律、二次函数呢?”正是这种对精度和量化的执着,才能真正理解“怎么做才能突破”,并系统性地判断目标是否达成。在Scaling Law中,最理想的情况就是找到让性能随计算增长更快的方法,实现投入更多算力就能比别人进步更快的奇迹。
此外,物理学中研究“大矩阵近似”的方法也为AI模型的研究提供了独特视角。神经网络的万亿级参数,本质上就是巨大的矩阵。Kaplan指出,将神经网络视作无限大的系统来研究,在物理学中早有先例,如今也被成功应用于AI。但他认为,总体而言,最有用的还是去问那些“特别蠢”的基础问题。AI作为一个仅发展了10到15年的新领域,许多最基本的问题,如可解释性、模型内部运作机制等,都尚未被解决。这正是需要大量基础性学习而非“花哨技术”的领域。
韧性与进化:对Scaling Law局限性的反思
面对Scaling Law已经成立了五个数量级的事实,当被问及什么样的实证迹象会让他相信这个规律“失效了”时,Jared Kaplan的回答彰显了一位科学家的严谨与韧性。他将Scaling Law更多地视为一个判断训练是否正常的“诊断工具”。因此,如果观察到Scaling Law不再成立,他的“第一反应是:很可能是我们在训练过程中‘搞砸了’”,比如网络架构设计错误,或训练过程存在瓶颈,甚至算法精度出了问题。他强调,过去五年的经验是:“每次我们以为Scaling Law失效的时候,其实都是我们的训练方法出现了问题。”这表明他对Scaling Law的稳固性抱有极强的信心。
然而,他也承认,沿着这条规模曲线走下去,未来将面临算力日益紧缺的挑战。AI当前的效率“非常低”,但其高价值促使业界争相“解锁最强模型”。Anthropic及同行正努力提升训练和推理效率,并探索FP4、三值表示等路径来降低精度以提高效率。Kaplan幽默地提到:“有个玩笑说,‘我们终有一天会让AI回归二进制运算。’”他认为,长期来看,训练和推理成本将显著降低,甚至每年能看到3到10倍的算法效益提升。
但他也提出了一个深刻的“杰文斯悖论”式的思考:当前AI发展“非常不平衡”,模型能力尚未完全解锁,功能却在快速释放。理想的平衡状态是AI发展速度变慢、成本极低。但如果AI一直快速进化,人们反而会更关心能力的提升,而非成本的降低。他认为,未来AI越能代替人类完成各种工作,人们就越愿意为“能力顶尖”的模型买单,因为“大部分价值可能还是来自最强模型”。
薪火相传:AI时代职业生涯的导航
对于那些处于职业早期,身处AI日益强大的时代如何保持“不可替代性”的年轻一代,Jared Kaplan给出了清晰的指引。他认为,最宝贵的技能在于“了解这些模型的工作原理,并能高效地将其整合到实际场景中”。同时,能够在“能力前沿”构建产品,也是一种巨大的价值。
在与主持人和观众的对话中,Kaplan分享了他对未来AI技术路径的思考。针对Scaling Law的线性增长与任务时间跨度指数增长的矛盾,他坦诚“我也不知道(笑)”,但猜测这与模型“自我纠错”的能力有关。微小的纠错能力提升,能指数级地延长任务的坚持时间。至于如何训练AI完成更长时间跨度的任务,他认为“纯人力堆叠”理论上可行,但更优解在于“训练一个AI去监督另一个AI”,提供细粒度的反馈,大幅提升效率。而模型训练任务的构建,目前是“混合模式”,AI辅助生成,人类参与设计,未来则会更多依赖更强的AI来构建训练数据。
Jared Kaplan的故事,不仅是Anthropic崛起的注脚,更是一位理论物理学家在智能时代以求真精神探索未知、定义未来的缩影。他对于“蠢问题”的执着,对“宏观规律”的信仰,以及对AI未来图景的深刻洞察,都为我们揭示了人工智能的演进方向,以及在变革浪潮中,个体如何以智慧和勇气,成为时代洪流的引导者。