TL;DR:
在对通用人工智能(AGI)的共同渴望下,“世界模型”正成为人工智能领域的新焦点,其核心在于让AI从文本数据转向对物理世界的理解与交互。尽管技术路径与概念定义尚处“混战”状态,这场“反LLM中心主义”的运动预示着AI将走向更深层次的物理认知与因果推理,为具身智能、自动驾驶等应用奠定基础,也带来新的商业机遇与伦理挑战。
在人工智能浪潮的巅峰,大语言模型(LLM)的巨大成功仿佛已将AGI(通用人工智能)的曙光带到眼前。然而,技术界的大佬们,从Meta的杨立昆(Yann LeCun)到OpenAI的前首席科学家Ilya Sutskever,再到斯坦福的李飞飞,却不约而同地发出了一种新的呼声:大语言模型(LLM)的“天花板”已然可见,真正的智能突破将寄望于“世界模型”(World Model)1。RSS标题“世界太小,不够世界模型们用了”不仅反映了这一概念的宏大抱负,也恰如其分地描绘了当前其定义与技术路线的“概念通货膨胀”现象。
世界模型:从概念混战到AGI新范式
“世界模型”并非一个具体的技术方案,而是一个宏大的目标:让AI系统具备理解外部世界规律、预测世界变化的能力2。这一思想最早可追溯到1943年认知科学家Kenneth Craik的“心智模型(Mental Model)”,它描述了人类大脑如何通过构建世界的微缩模型来进行预测。在现代AI领域,Jürgen Schmidhuber等人2018年的论文《Recurrent World Models Facilitate Policy Evolution》奠定了其神经网络框架。然而,随着大语言模型在GPT-3.5后的参数膨胀,以及业界对AGI的急切渴望,世界模型的概念在近两年迅速“繁殖”,其定义变得南辕北辙,如同一个“筐”,什么都往里装1。
尽管如此,一个基本共识正在形成:大语言模型在本质上是“离身”(Disembodied)的,缺乏对物理世界的深层理解。它擅长处理符号和语言,理解“苹果”与“红色”、“甜”的关联,但从未真正“看见”苹果,也无法理解苹果掉落的重力加速度2。这种“黑暗中的文字大师”的局限性,促使业界集体转向,将目光投向对物理现实的模拟与交互,以期弥补通往AGI的最后一块拼图。
技术路线的“双面神”:表征与生成之争
当前,世界模型的技术发展呈现出两大核心流派,它们代表了两种截然不同的世界观和实现路径。
-
表征派(Representation School): 以图灵奖得主杨立昆为代表,主张这是一条不产生画面的极简主义路线。LeCun认为,我们对世界的预测和行动更多是一种直觉,而非具体的视觉画面或物理公式。因此,他的世界模型是一个深藏在系统后端的“大脑”,只在表征处理后的潜在空间里运作,预测的是“抽象状态”,而非像素。例如,当一辆车驶来,模型计算的是“障碍物靠近”这一状态,而非绘制出车牌号或反光细节。LeCun提出的I-JEPA(联合嵌入预测架构)和V-JEPA模型,摒弃了生成式AI“预测每一个像素”的做法,专注于逻辑上的因果推演,旨在为机器决策提供高效、准确的抽象理解1。这种路径强调效率和对核心物理规律的抽象建模。
-
生成派(Generation School): 这一派援引物理学家理查德·费曼的名言:“What I cannot create, I do not understand.” 他们认为,如果模型能够生成符合物理规律的真实世界,就证明它真正理解了这些规律。
- 静态视频生成:OpenAI的Sora被其团队称为“世界模拟器”。Sora通过学习海量视频数据,期望模型能通过预测下一帧像素,涌现出对物理规律的理解,例如“人走路时腿会交替”、“玻璃杯掉落会破碎”的概率分布。然而,其主要争议在于无法响应动作交互,可能只是记住了“球飞行的轨迹概率”,而非理解“力学定律”1。
- 互动式生成视频(Interactive Generative Video, IGV):谷歌DeepMind的Genie 3代表了生成派的进一步演进。它强调实时性和可交互性,允许用户在生成的场景中进行有限的动作(如方向键移动),实时预测下一帧画面。这表明模型开始理解动作与环境变化的因果关系,为AI在虚拟环境中进行模拟和实验提供了更广阔的“沙盘”12。
- 3D空间智能(3D Spatial Intelligence):以李飞飞及其World Labs发布的Marble为代表。如果说前两者是在处理视频流,Marble则致力于从底层构建一个持久的、可编辑的3D环境。它不依赖传统网格建模,而是采用“3D高斯泼溅(3D Gaussian Splatting)”技术,将世界表征为无数彩色模糊小斑点,从而渲染出高精度、物理准确的三维画面,并支持用户生成、改造及导出到其他引擎。李飞飞认为,建立高精度的物理准确的3D空间,是实现“空间智能”的第一步,即AI创造、推理、互动、理解深刻空间世界的能力1。
这些路线虽然成果斐然,但彼此间争议不断,共同推动着世界模型概念外延的无限扩大,将其与具身智能、自动驾驶、游戏视频、多模态模型乃至视觉信息压缩等众多领域深度捆绑。
产业生态重构:反LLM叙事下的资本与创新
世界模型的井喷式发展,并非纯粹的技术突破,更是资本焦虑、技术瓶颈和AGI梦想交织的产物。在“大语言模型”竞争格局已定的背景下,后来者和垂直应用开发者急需一个新故事来打动投资人。“视频生成模型”的天花板有限,但一旦更名为“世界模型”,瞬间便上升到AGI的高度,带来了巨大的叙事价值和投资潜力1。
这种现象反映了当下AI时代一个有趣的转变:科研人员大规模下场创办公司,学术的“定义之争”被抛入商业世界,一个概念的差异可能对应着数以亿计的算力投入方向、产业链的备货和投资人价值的重构1。
更深层次的原因在于,世界模型的兴起,正是一场“反LLM中心主义”的运动。整个AI行业对大语言模型的“离身”缺陷产生了集体性焦虑。LLM的认知局限于文本符号的线性关联,缺乏对物理世界的三维空间建模能力与动态因果推理能力,其边际效益也在递减2。无论是Ilya Sutskever离职OpenAI后强调的“超越大模型”,还是李飞飞提出的“空间智能”,核心都在于一点:AI需要从学习“人类说的话”,转向学习“世界发生的事”1。
产业巨头们已将世界模型视为下一轮飞跃的引爆点。谷歌DeepMind的Genie系列模型在一年半内从2D升级至Genie 3,旨在提供可扩展的AI训练环境;Meta发布代码世界模型(CWM),让AI像程序员一样思考代码运行过程;英伟达CEO黄仁勋断言,公司下一个主要增长阶段将来自“物理AI”,利用Omniverse平台进行仿真;特斯拉CEO马斯克更是最早提出“世界模型”概念,用于其自动驾驶系统的学习与验证2。
伦理与挑战:通往具身智能的未知疆域
尽管世界模型展现出巨大潜力,但其发展也面临着多重挑战。
-
技术与生态挑战:构建世界模型需要海量的多模态数据,包括视频、音频、传感器数据等,其收集、标注和整理成本高昂。数据的质量和多样性直接影响模型性能。同时,目前世界模型领域缺乏统一标准、训练语料、可比评价指标和公共实验平台,企业各自为战,难以形成规模化创新生态2。
-
认知与伦理挑战:世界模型的强大之处在于其内部推演与预测能力,但这使其决策过程愈发难以被人类理解。当模型能在潜在空间中模拟成千上万种结果时,我们如何追踪其决策逻辑?这引发了自动驾驶的责任归属、自主智能“目标漂移”(Goal Drift)等伦理议题。一旦AI从被动执行转为主动学习,安全与伦理的议题将从技术层面上升到价值层面,即AI的目标是否仍与人类一致2。
-
哲学思辨:对“理解”的拷问: 人工智能有时会比人还“蠢”2。例如,Sora生成的蚂蚁可能只有四条腿,生成视频中物体的细节衔接生硬,不符合常识2。这引发了对当前AI“理解”能力本质的批判。优步前AI业务负责人Gary Marcus指出,无论当今生成式AI接受多少数据训练,它们只能建立世界运作的_概率模型_,而非真正的_逻辑推理_。AI学习的是输入数据间的关联性,这种模糊的近似认知被编码在AI“大脑”中,往往残缺不全或自相矛盾2。
“就像人类婴儿不需要阅读百科全书就能理解重力——他们通过眼睛观察杯子坠落,用手触摸桌面来建立物理世界的认知。这正是LeCun推崇世界模型的关键:动态视频数据包含的时空信息,远比抽象文本更接近智能的本质。”2
世界模型的终极目标是让AI像人类一样,能够从具象体验中提炼抽象知识,进行反事实推理,从而实现从“看见”到“看懂”,从“感知”到“行动”,从“想象”到“创造”的质变2。
未来展望:世界模型作为通往AGI的“北极星”
世界模型作为人工智能版图中缺失的“拼图”,正成为AI下一轮飞跃的引爆点。它旨在让AI从纯虚拟语境切入物理现实维度,理解一个有时间、有空间、有因果的动态系统。尽管搭建真实世界模型面临着真实世界的复杂性与不确定性、现有数据的局限性以及物理学本身的局限性等多重难题2,但其作为实现具身智能和真正AGI的关键路径,已成为科学与产业界的共识。
未来3-5年,我们可以预见世界模型将在以下几个方向取得显著进展:
- 多模态融合的深化:模型将更有效地整合视觉、听觉、触觉等多维度信息,构建更全面的世界表征。
- 交互能力的突破:模型将支持更复杂、更自然的实时交互,从简单的方向控制走向多任务、多模态的具身操作。
- 物理定律的涌现:通过海量物理世界数据的训练,模型对重力、摩擦、惯性等物理规律的隐式理解将更加精确和稳定。
- 垂直领域的落地加速:在自动驾驶、机器人、虚拟现实、工业仿真等特定领域的应用将从实验室走向大规模商业化。例如,更安全的自动驾驶车辆、具备高水平认知能力的家政机器人将不再遥远。
世界模型的探索不仅是技术层面的迭代,更是对智能本质的深层哲学追问。它迫使我们思考,AI的“理解”究竟意味着什么,以及如何确保这个理解与人类的价值和目标保持一致。这场“反LLM中心主义”的运动,正将AI从文本的边界推向物理的疆域,描绘出通往真正通用智能的宏伟征途。