TL;DR:
作为智源研究院院长的王仲远,正冷静地审视着当前AI行业的“世界模型”热潮。他不仅是前沿技术的领航者,更是一位理性的破局者,坚持带领团队从“预测下一个词元”迈向“预测下一个物理状态”,试图在具身智能的混沌中寻找通往通用人工智能(AGI)的确定性路径。
冷静的观察者
当“世界模型”这一概念迅速从学术讨论席卷至资本狂欢,成为实验室和创投圈的共同信仰时,王仲远表现出一种与周围环境并不匹配的沉静。在智源研究院的办公室里,他谈论起AI的未来,没有那种令人眩晕的泡沫感,反而更像是一位深思熟虑的向导。
在他看来,当下的AI行业就像是处在2012年深度学习爆发前夕的“前夜”。尽管Sora等模型的横空出世点燃了热情,但他依然坚持认为,视频生成模型并不等同于世界模型。这种对于“热词”的警惕,源于他深厚的科研底蕴和对本质的洞察。他将眼下行业对概念的混淆比作一种“集体焦虑”的释放,而智源的任务,是拨开这些幻象。
从“文字世界”到“物理真相”
王仲远并不否认大语言模型的历史功绩,但他敏锐地指出,语言是人类经验的凝练,却无法替代物理规律。他提出了一个极具颠覆性的范式跃迁:人工智能必须从“预测下一个词元(Next Token Prediction)”进化为“预测下一个物理状态(Next Physical State Prediction)”。12
这不仅是技术的切换,更是一种思维逻辑的重塑。为了实现这一跨越,王仲远带领团队构建了“第五条路径”——即在统一的“潜空间(Latent Space)”内压缩全模态信息。“这就像是给机器人大脑准备了一张万能草稿纸,”他如此比喻。无论看到的画面还是指令,统统被压缩为AI能理解的“密语笔记”,再据此进行推理、决策与执行。[1]
具身智能的突围与守望
在具身智能领域,王仲远对当前的现状有着清晰的认知。他将现有的VLA(视觉-语言-动作模型)形容为“当下的解法”,而世界模型则是“未来的基座”。这种务实的判断,展现了他作为管理者的平衡感——他既支持在工厂分拣、打包等具体场景中进行“沿途下蛋”的商业落地,又坚定地为长期的通用物理基座模型预留了科研火种。[1]
他并不避讳当前面临的困难,包括高质量物理数据的匮乏、技术路线的未收敛,以及仿真数据与真实世界之间的鸿沟。在采访中,他多次强调,机器人的真正成熟绝非一蹴而就,“可能需要三年甚至更长时间”。这种对时间成本的坦诚,与其说是悲观,不如说是一种对科学规律的敬畏。[1]2
行业领航者的坐标系
作为智源研究院的掌舵人,王仲远的影响力已渗透至中国AI研究的最前沿。他不满足于简单的技术迭代,而是试图推动行业共建评测体系,要求模型必须通过真实物理世界的因果逻辑考验,而非仅仅生成一段赏心悦目的视频。2
“人工智能正在加速从数字世界走向物理世界,”这是他的使命,也是他的坐标。在追寻物理AGI的征途上,王仲远选择了一条最难走,但也最具开拓性的道路。他不在意行业内一时的喧嚣,他更关注的是,当AI真的能够像人类一样理解“推杯子会掉”背后的物理因果时,那个时代才算真正来临。[1]1