超越“缸中大脑”：具身智能的下一场残酷生存战

TL;DR：

具身智能正在经历从“互联网模仿”向“物理直觉构建”的范式转移，VLA模型的单纯扩容已至瓶颈，融合了物理世界因果预测的世界模型与高效数据工厂，将成为未来三年机器人竞争的唯一护城河。

从“魔术表演”到物理现实的回归

过去两年，VLA（视觉-语言-动作模型）仿佛是具身智能领域的“通天塔”。从Google DeepMind的RT-2到各路独角兽的竞相模仿，行业一度认为只需通过大规模互联网图文视频的预训练，再辅以少量的机械臂遥操作数据，就能“顺手”造出通用机器人。

然而，2026年的物理现场冷水浇醒了资本：在实验室洁净环境外，当遇到反光表面、形变物体或未知的摩擦系数时，那些看似优雅的VLA模型瞬间“断片”。正如英伟达机器人一号位Jim Fan所言，这种基于互联网表征的“伪物理”理解，在真实的熵增世界里显得如此脆弱。¹

技术破局：从“浅层关联”到“深层内化”

问题的核心在于数据基因的错位。互联网数据是人类审美后的剪辑物，丢失了因果律中最关键的物理瞬间——例如物体在指尖滑动那一刻的摩擦力动态。²

真正的突围之路在于“世界模型”的内化，而非简单的仿真器补丁。未来的具身智能必须具备一种“直觉模块”，它像人类大脑一样，在动作输出前，能在毫秒级时间内进行物理推演。³ 正如FiS-VLA（Fast-in-Slow VLA）架构所展示的，通过“慢系统”进行深层推理，配合“快系统”的高频肌肉记忆输出，具身智能才开始真正理解什么是“重量”、什么是“阻力”。

数据工厂：决定生存的暗线竞争

如果说模型架构是“枪”，那么高质量的物理交互数据就是唯一的“弹药”。当行业还在争论模型参数大小时，顶尖玩家早已将重心转移至底层工程建设——数据工厂。

当前具身智能的困境在于，数据收集的“远古模式”——即人力密集型的遥操作——难以支撑Scaling Law在物理空间的落地。⁴ 真正能笑到最后的是那些建立了类似特斯拉“影子模式”体系的公司。他们通过大规模的真实世界部署，自动捕捉、标注、反馈每一个失败的操作，形成了一个自动造血的物理数据飞轮。这不仅是算法的战争，更是一场关于“物理世界数据霸权”的工业化竞争。

未来展望：分层竞争的产业格局

未来三年，具身智能的产业链将出现明显的垂直分层：

基座层：提供具备物理常识的“通用底座”，由拥有海量计算资源与先验知识的巨头垄断。
专家层：利用私域物理数据，在基座上微调出特定场景的“超级专家”，如精密装配或高难度物流。
末端层：缺乏数据积累的公司将沦为基座模型的应用分销商，在低技术门槛的红海中苦苦支撑。

具身智能的宏大叙事并未破灭，它只是从高谈阔论的硅谷实验室，转移到了昏暗、嘈杂却充满真实细节的数据工厂。这场残酷的工程战，决定了谁将成为下一代自动化文明的基石。

引用

VLA爆发！从美国RT-2到中国FiS-VLA，机器人「即知即行」的终极进化 · 智源社区 (2025/7/9) · 检索日期2026/6/2 ↩︎
面向具身操作的视觉-语言-动作模型综述 · arXiv (2025/8/28) · 检索日期2026/6/2 ↩︎
当自动驾驶与机器人共振：详解VLA 与世界模型 · 华源证券研究所 (2025/7/7) · 检索日期2026/6/2 ↩︎
Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications · Moonlight (2026/6/2) · 检索日期2026/6/2 ↩︎