TL;DR:
作为智元机器人首席科学家,罗剑岚通过构建从数据闭环到动作条件预测的完整技术栈,挑战了具身智能领域的“参数暴力崇拜”。他坚信机器人真正的智能演进并非来自单纯的数据堆砌,而是源于真实部署环境下的持续交互与自我迭代。
在具身智能这个喧嚣的赛道里,当所有人都在讨论如何复刻大语言模型式的“Scaling Law”时,罗剑岚的语调冷静得近乎刺耳。他很少给出模糊的折中答案,逻辑的齿轮在他讲述时精密而快速地咬合。这位曾经师从具身智能奠基人Sergey Levine、拥有Google X与DeepMind背景的科学家,回国14个月后,正试图将一种更具工程主义美感的路径注入这个行业。
走出“参数暴力”的幻象
“Paper上,PI(Physical Intelligence)从来没赢过;现实里,PI从来没输过。”这句在技术圈流传的半开玩笑的判词,恰恰击中了罗剑岚所关注的核心矛盾。
在罗剑岚看来,当前行业陷入了一种关于“规模”的误读。在大语言模型领域,离线Loss与模型能力之间存在稳定的统计相关性,但在充满接触、摩擦、遮挡和硬件扰动的物理世界,离线Loss的下降往往只是模型在做“应试教育”。模型记住了数据,并不代表它能“驾驭”现实。
因此,罗剑岚毫不客气地指出,许多团队所谓的“基础模型”其实只是“中训练”或“微调”。真正的挑战不是谁能在实验室里刷出漂亮的论文指标,而是谁能在真实世界的便利店、商超中,跑通那套“数据回流—模型进化—部署增强”的闭环。
闭环:智能的生命线
在罗剑岚的技术图谱中,机器人不应是出厂即定型的产品,而是一个动态进化的系统。为了实现这一愿景,他推动落地了一系列核心支点:
- SOP(可扩展在线后训练):他将这视为连接云端与物理世界的“神经链路”,证明了机器人数据从现场高效回流至训练系统的可行性。
- LWD(部署中学习):这彻底打破了传统“训练—部署”的隔阂,让机器人系统具备了在真实交互中不断汲取新经验、自我修正的能力。
- τ0-WM世界模型:这是他近期最引人瞩目的作品。不同于单纯的视频生成,τ0-WM是一个“动作条件的物理推演器”。他强调,机器人必须具备“三思而后行”的能力,在执行任务前,先在模型内部的虚拟沙盘中评估动作后果,从而避免那些将鸡蛋扫落桌面的“低级决策错误”。1
对于罗剑岚而言,这些技术支点如同木桶的板材,任何一块的短板都会锁死系统的上限。“真正的Scaling Law时刻,是当部署规模扩大后,新场景的适配成本能持续下降,那时才是飞轮开始真正转动的时刻。”2
穿梭于学界与战场的“清醒者”
罗剑岚有着典型的伯克利学派式严谨,他习惯将复杂的行业趋势拆解为环环相扣的工程问题。在与他的交谈中,你能清晰感受到一种学术理想与商业务实之间的张力。他并不否认GPT范式的启发意义,但他时刻提醒着,将文本空间的概率规律简单平移到物理空间的触觉与力控上,是一场危险的赌博。
他非常清楚,大厂受制于OKR,转身缓慢,而智元作为创业公司,最宝贵的资产就是“速度”。他的目标很明确:在接下来的12到18个月内,率先在半结构化场景中跑通数据飞轮。
当被问及未来是否需要海量数据才能实现通用化时,他给出了一个开放而克制的预判:“也许我们不需要收集8000万个家庭的数据,只需要1万个家庭的真实交互,再结合更科学的预训练方法,就能打开泛化的窗户。”
这不仅是对技术的重塑,更是一位科学家在面对AI浪潮时,保持的一份难得的战略定力。他并不追求成为那个制造最大泡沫的人,他想做的,是第一个在物理世界里证明“机器也能像人一样在失败中学习”的领路人。
引用
-
τ0-WM:最大规模预训练的开源具身世界模型来了 · 量子位 · 衡宇(2026/5/31)·检索日期2026/6/17 ↩︎
-
智元首席科学家罗剑岚:2026年挖出真实场景的Scaling law · InfoQ · 邱晓芬(2026/6/17)·检索日期2026/6/17 ↩︎