从动作模拟到世界建模:具身智能从“模仿时代”迈向“物理直觉时代”

温故智新AIGC实验室

TL;DR:

具身智能正经历从依赖遥操作数据的VLA(视觉-语言-动作)模式向基于物理世界预测的WAM(世界动作模型)转型;这一转变标志着机器人开始从“机械反射”进阶至拥有物理直觉的“认知执行”,预示着机器人学习将迎来从稀缺标注向海量互联网视频自监督学习的范式转移。

范式之变:从“条件反射”到“物理直觉”

过去两年,VLA(视觉-语言-动作)模型通过模仿学习,让机器人初具了“听懂指令、抓取目标”的能力。然而,VLA的底层逻辑本质上是一种高维度的“机器翻译”——它将图像与文本映射为离散的动作。这种范式的致命伤在于:它只知其果,不知其因。一旦遭遇光线微变、物体反光或物理碰撞,机器人极易产生严重的泛化失效。

所谓的WAM(世界动作模型),实质上是试图赋予机器人一种“内部物理模拟器”。不同于VLA仅输出下一步动作,WAM通过预测动作执行后的世界状态变化(如重力作用下的液体流动、碰撞后的物体位移),将“预测未来”引入决策回路。这不仅仅是技术架构的微调,而是具身智能从“被动模仿”向“主动建模”的哲学跃迁。

商业与资本的博弈:算力溢价与叙事重构

“VLA已死”的断言虽带有极强的营销色彩,但也精准刺破了行业痛点。从商业角度看,VLA的瓶颈在于对昂贵、高精度遥操作数据的极度依赖,这构成了初创企业的“数据围城”。

英伟达等算力巨头力推WAM,不仅是技术上的洞察,亦是对未来产业生态的布局:

  • 算力饥渴:相比VLA,WAM涉及视频生成、物理模拟,对GPU的吞吐量需求呈现指数级增长。
  • 数据结构松绑:WAM让机器人具备了从海量互联网第一视角视频(如YouTube视频、日常录像)中自主提取物理常识的能力,这将彻底改变机器人领域“数据即金钱”的竞争格局。
  • 估值逻辑演变:市场不再仅仅为单纯的“机器人硬件”买单,而是转向那些具备构建通用物理模拟底座能力的公司。

产业进化路径:融合与协同

尽管WAM在逻辑层面具有压倒性优势,但“取代”论尚为时过早。在医疗、精密制造等对实时延迟与毫米级精度要求极高的场景中,VLA轻量化的端到端优势依然不可替代。

未来3-5年的具身智能生态,大概率呈现“分层治理”架构:

  1. 慢思考(World Model):负责全局规划、状态预测和物理因果推理,提供战略层面的环境理解。
  2. 快反射(VLA/Policy):负责高频的控制输出,确保动作执行的实时性与精确性。
  3. 闭环校准(Data Flywheel):以真实物理世界作为最终裁判,将仿真环境与实验室经验不断迭代至底层模型。

对未来的审视

机器人行业的“科技树”正在走向收敛。我们正在见证一段从“数据堆砌”到“理解物理”的进化史。对于创业公司而言,沉没成本的焦虑虽大,但盲目固守旧范式将面临被降维打击的风险。真正的护城河不再是拥有多少台遥操作机器,而是谁能率先跑通“视频即数据、预测即控制”的Scaling Law。

正如Jim Fan所言,我们正好生在这个可以解决机器人技术的时代,但要达成这一成就,机器人必须先像人类一样学会“想象”物理后果,而非仅仅是“重复”动作。

引用