王仲远：在物理世界的“无人区”，重构人工智能的进化坐标

TL;DR：

作为智源研究院院长的王仲远，正冷静地审视着当前AI行业的“世界模型”热潮。他不仅是前沿技术的领航者，更是一位理性的破局者，坚持带领团队从“预测下一个词元”迈向“预测下一个物理状态”，试图在具身智能的混沌中寻找通往通用人工智能（AGI）的确定性路径。

冷静的观察者

当“世界模型”这一概念迅速从学术讨论席卷至资本狂欢，成为实验室和创投圈的共同信仰时，王仲远表现出一种与周围环境并不匹配的沉静。在智源研究院的办公室里，他谈论起AI的未来，没有那种令人眩晕的泡沫感，反而更像是一位深思熟虑的向导。

在他看来，当下的AI行业就像是处在2012年深度学习爆发前夕的“前夜”。尽管Sora等模型的横空出世点燃了热情，但他依然坚持认为，视频生成模型并不等同于世界模型。这种对于“热词”的警惕，源于他深厚的科研底蕴和对本质的洞察。他将眼下行业对概念的混淆比作一种“集体焦虑”的释放，而智源的任务，是拨开这些幻象。

从“文字世界”到“物理真相”

王仲远并不否认大语言模型的历史功绩，但他敏锐地指出，语言是人类经验的凝练，却无法替代物理规律。他提出了一个极具颠覆性的范式跃迁：人工智能必须从“预测下一个词元（Next Token Prediction）”进化为“预测下一个物理状态（Next Physical State Prediction）”。¹²

这不仅是技术的切换，更是一种思维逻辑的重塑。为了实现这一跨越，王仲远带领团队构建了“第五条路径”——即在统一的“潜空间（Latent Space）”内压缩全模态信息。“这就像是给机器人大脑准备了一张万能草稿纸，”他如此比喻。无论看到的画面还是指令，统统被压缩为AI能理解的“密语笔记”，再据此进行推理、决策与执行。[1]

具身智能的突围与守望

在具身智能领域，王仲远对当前的现状有着清晰的认知。他将现有的VLA（视觉-语言-动作模型）形容为“当下的解法”，而世界模型则是“未来的基座”。这种务实的判断，展现了他作为管理者的平衡感——他既支持在工厂分拣、打包等具体场景中进行“沿途下蛋”的商业落地，又坚定地为长期的通用物理基座模型预留了科研火种。[1]

他并不避讳当前面临的困难，包括高质量物理数据的匮乏、技术路线的未收敛，以及仿真数据与真实世界之间的鸿沟。在采访中，他多次强调，机器人的真正成熟绝非一蹴而就，“可能需要三年甚至更长时间”。这种对时间成本的坦诚，与其说是悲观，不如说是一种对科学规律的敬畏。[1]²

行业领航者的坐标系

作为智源研究院的掌舵人，王仲远的影响力已渗透至中国AI研究的最前沿。他不满足于简单的技术迭代，而是试图推动行业共建评测体系，要求模型必须通过真实物理世界的因果逻辑考验，而非仅仅生成一段赏心悦目的视频。²

“人工智能正在加速从数字世界走向物理世界，”这是他的使命，也是他的坐标。在追寻物理AGI的征途上，王仲远选择了一条最难走，但也最具开拓性的道路。他不在意行业内一时的喧嚣，他更关注的是，当AI真的能够像人类一样理解“推杯子会掉”背后的物理因果时，那个时代才算真正来临。[1]¹

引用

对话智源研究院院长王仲远：AI正加速从数字世界走向物理世界 · 21经济网 · 孔海丽（2025/06/08）· 检索日期2026/06/15 ↩︎ ↩︎
智源研究院院长王仲远：世界模型是下一代人工智能的基座模型 · 同花顺财经（2026/06/13）· 检索日期2026/06/15 ↩︎ ↩︎ ↩︎