罗剑岚：在物理世界的深水区，重塑机器人的“进化论”

TL;DR：

作为智元机器人首席科学家，罗剑岚通过构建从数据闭环到动作条件预测的完整技术栈，挑战了具身智能领域的“参数暴力崇拜”。他坚信机器人真正的智能演进并非来自单纯的数据堆砌，而是源于真实部署环境下的持续交互与自我迭代。

在具身智能这个喧嚣的赛道里，当所有人都在讨论如何复刻大语言模型式的“Scaling Law”时，罗剑岚的语调冷静得近乎刺耳。他很少给出模糊的折中答案，逻辑的齿轮在他讲述时精密而快速地咬合。这位曾经师从具身智能奠基人Sergey Levine、拥有Google X与DeepMind背景的科学家，回国14个月后，正试图将一种更具工程主义美感的路径注入这个行业。

走出“参数暴力”的幻象

“Paper上，PI（Physical Intelligence）从来没赢过；现实里，PI从来没输过。”这句在技术圈流传的半开玩笑的判词，恰恰击中了罗剑岚所关注的核心矛盾。

在罗剑岚看来，当前行业陷入了一种关于“规模”的误读。在大语言模型领域，离线Loss与模型能力之间存在稳定的统计相关性，但在充满接触、摩擦、遮挡和硬件扰动的物理世界，离线Loss的下降往往只是模型在做“应试教育”。模型记住了数据，并不代表它能“驾驭”现实。

因此，罗剑岚毫不客气地指出，许多团队所谓的“基础模型”其实只是“中训练”或“微调”。真正的挑战不是谁能在实验室里刷出漂亮的论文指标，而是谁能在真实世界的便利店、商超中，跑通那套“数据回流—模型进化—部署增强”的闭环。

闭环：智能的生命线

在罗剑岚的技术图谱中，机器人不应是出厂即定型的产品，而是一个动态进化的系统。为了实现这一愿景，他推动落地了一系列核心支点：

SOP（可扩展在线后训练）：他将这视为连接云端与物理世界的“神经链路”，证明了机器人数据从现场高效回流至训练系统的可行性。
LWD（部署中学习）：这彻底打破了传统“训练—部署”的隔阂，让机器人系统具备了在真实交互中不断汲取新经验、自我修正的能力。
τ0-WM世界模型：这是他近期最引人瞩目的作品。不同于单纯的视频生成，τ0-WM是一个“动作条件的物理推演器”。他强调，机器人必须具备“三思而后行”的能力，在执行任务前，先在模型内部的虚拟沙盘中评估动作后果，从而避免那些将鸡蛋扫落桌面的“低级决策错误”。¹

对于罗剑岚而言，这些技术支点如同木桶的板材，任何一块的短板都会锁死系统的上限。“真正的Scaling Law时刻，是当部署规模扩大后，新场景的适配成本能持续下降，那时才是飞轮开始真正转动的时刻。”²

穿梭于学界与战场的“清醒者”

罗剑岚有着典型的伯克利学派式严谨，他习惯将复杂的行业趋势拆解为环环相扣的工程问题。在与他的交谈中，你能清晰感受到一种学术理想与商业务实之间的张力。他并不否认GPT范式的启发意义，但他时刻提醒着，将文本空间的概率规律简单平移到物理空间的触觉与力控上，是一场危险的赌博。

他非常清楚，大厂受制于OKR，转身缓慢，而智元作为创业公司，最宝贵的资产就是“速度”。他的目标很明确：在接下来的12到18个月内，率先在半结构化场景中跑通数据飞轮。

当被问及未来是否需要海量数据才能实现通用化时，他给出了一个开放而克制的预判：“也许我们不需要收集8000万个家庭的数据，只需要1万个家庭的真实交互，再结合更科学的预训练方法，就能打开泛化的窗户。”

这不仅是对技术的重塑，更是一位科学家在面对AI浪潮时，保持的一份难得的战略定力。他并不追求成为那个制造最大泡沫的人，他想做的，是第一个在物理世界里证明“机器也能像人一样在失败中学习”的领路人。

引用

τ0-WM：最大规模预训练的开源具身世界模型来了 · 量子位 · 衡宇（2026/5/31）·检索日期2026/6/17 ↩︎
智元首席科学家罗剑岚：2026年挖出真实场景的Scaling law · InfoQ · 邱晓芬（2026/6/17）·检索日期2026/6/17 ↩︎