弥合“想”与“做”的鸿沟:UC伯克利LeVERB框架赋能人形机器人自主决策

温故智新AIGC实验室

UC伯克利和卡内基梅隆大学的研究团队推出LeVERB框架,首次打通人形机器人的视觉语义理解与物理运动之间的断层,使其能像人类一样,通过语言指令和感知新环境,自主完成全身动作。该框架通过创新的双层系统和逼真的仿真基准,显著提升了机器人零样本任务的成功率,为具身智能的进步奠定基础。

在机器人技术发展的漫长征程中,一个核心的挑战始终萦绕不散:如何让机器人在理解复杂世界的同时,也能灵活自如地执行任务?传统的机器人系统往往陷入两难境地——要么拥有精密的视觉和语言理解能力,却在物理动作的协调性上捉襟见肘;要么能机械地执行预设动作,却对瞬息万变的环境一无所知,无法进行实时决策。这种“想”与“做”之间的断层,长期以来阻碍了人形机器人从实验室走向现实世界的步伐。

然而,来自UC伯克利、卡内基梅隆大学等机构的研究人员,通过其最新的研究成果LeVERB框架,首次成功弥合了这一关键断层。这项突破性进展不仅让宇树G1人形机器人在现场演示中,无需提前熟悉环境,便能根据简单的语言指令,流畅地完成“坐在椅子/桌子/箱子上”、“跨过箱子”、“敲门”等复杂全身动作,更标志着人形机器人向真正的自主智能迈出了坚实的一步。1

技术原理解析:LeVERB如何弥合感知与动作的鸿沟

长期以来,人形机器人由于其高维非线性的动力学特性,需要高频控制与低频规划的有效结合,但传统方法在整合视觉和语言语义方面显得力不从心。多数视觉-语言-动作(VLA)模型在控制机器人时,高度依赖手工设计的底层动作“词汇”,这使得它们只能处理准静态任务,难以应对人形机器人全身控制(WBC)所需的灵活全身动作。

LeVERB框架的精妙之处在于其分层双系统设计,它将高层的视觉-语言指令压缩并映射为一个**“潜在动作词汇”**——一种抽象的指令,能够被底层的动作模块识别并执行。这种设计使得高层专注于“理解任务”,而底层则专注于“做好动作”,各司其职,协同工作。1

  • LeVERB-VL(“想”的层面):作为一个基于Transformer的视觉语言主干网络,LeVERB-VL(拥有102.6M参数)以10Hz的频率运行。它负责解析视觉感知和语言指令,例如识别“去坐蓝色椅子”,并将其转化为高层次的“抽象指令”,即“潜在动作词汇”。这一层通过VLA先验模块、运动学编码器、残差潜在空间、运动学解码器和判别器等组件,将复杂的视觉和语言输入映射到平滑且规范的潜在词汇空间,从而为后续的运动控制生成潜在的动作计划。其训练过程融合了轨迹重建、分布对齐和对抗分类等多种优化策略,确保对视觉-语言信息的高效处理和准确决策。1

  • LeVERB-A(“做”的层面):这是一个基于Transformer的全身动作专家网络(仅1.1M参数),以50Hz的更高频率运行。LeVERB-A接收来自高层LeVERB-VL的潜在动作指令,并将其解码为机器人可执行的动力学级人形动作输出。它利用强化学习(RL)进行训练,首先通过近端策略优化(PPO)训练与视觉-语言无关的教师策略,随后运用DAgger算法和Huber损失函数,将教师策略的动作知识蒸馏到以潜在命令为条件的学生策略(即LeVERB-A)中。在运行时,LeVERB-A结合本体感受信息和潜在向量,实时生成扭矩级关节位置动作指令,并在机器人板载CPU上用C++实现推理,实现了人形机器人的全身控制。1

这种分层设计巧妙地解决了传统VLA模型在处理全身控制任务时面临的挑战,实现了从高级语义理解到低级物理执行的无缝衔接。

LeVERB-Bench:加速具身智能研发的基石

为了有效衡量并推动人形机器人视觉-语言全身控制(WBC)领域的发展,研究团队还专门推出了配套基准LeVERB-Bench。当前,人形机器人WBC领域用于训练VLA模型的演示数据稀缺,现有基准也存在诸多局限,如仅关注运动、缺乏视觉信息、仿真渲染不真实导致“仿真与现实”差距大等。

LeVERB-Bench通过以下创新方法克服了这些问题:1

  • 逼真的数据采集:在仿真环境中重放重定向的动作捕捉(MoCap)运动,收集逼真的轨迹数据。这种方式无需在数据收集时进行可靠的动态控制,运动学姿势能提供任务级语义,还支持使用互联网视频等来源的重定向人形数据。
  • 高保真渲染:采用IsaacSim中的光线追踪渲染技术,更准确地模拟场景光照和阴影,显著缩小了以往合成数据中因光照不真实导致的仿真与现实差距。
  • 多样性与泛化能力:通过程序生成管道,对每个轨迹进行缩放和随机化处理,包括随机化场景背景、物体属性、任务设置、相机视图,并对部分演示进行镜像,以确保数据的多样性和语义丰富性。
  • 多模态标注:手动或使用VLM为数据标注以自我为中心的文本命令,并利用VLM为仅包含运动的对标注文本指令,增加仅语言数据,扩大数据覆盖范围。

LeVERB-Bench涵盖了导航、走向目标、绕物体移动、坐下、伸手够物等10类共计154个视觉-语言任务轨迹460个仅语言任务轨迹,经过多次随机化后生成了大量演示数据,总计17.1小时的逼真运动轨迹数据和2.7小时的仅语言数据。在评估时,模型会在20个随机环境中进行测试,这些环境的纹理、物体属性和相机角度在训练数据中从未出现过,充分检验了模型的泛化能力。1

突破性表现与未来展望

将LeVERB框架部署在宇树G1机器人上进行的真实世界测试验证了其从仿真到现实的零样本迁移能力。例如,机器人能够成功执行“走向椅子坐下”等复杂任务。这表明该框架在实际应用中具备良好的可行性。1

在LeVERB-Bench基准上的评估结果令人印象深刻:简单视觉导航任务的零样本成功率高达80%,整体任务成功率为58.5%,这一表现比朴素分层VLA方案高出7.8倍。这不仅证明了LeVERB在处理复杂视觉-语言任务方面的卓越能力,也预示着其在不同场景下的良好泛化前景。通过消融实验,团队还进一步证实了判别器和运动学编码器等关键组件在对齐潜在空间、增强模型泛化能力和补充运动细节信息方面的重要性。1

这项研究的意义远不止于技术指标的提升。它为我们描绘了一幅具身智能的未来图景:机器人不再是仅仅执行预编程指令的机械装置,而是能够主动感知、理解并响应环境的智能体。这种能力对于家庭服务、工业操作、灾害救援等多种应用场景都具有颠覆性的潜力。想象一下,一个能够理解并执行复杂日常任务的家用机器人,或是能根据现场情况自主调整操作流程的工业机器人,LeVERB为这些愿景的实现铺平了道路。

当然,挑战依然存在。虽然LeVERB在仿真到现实的迁移方面取得了显著进展,但真实世界的复杂性和不可预测性远超仿真环境。如何进一步提升机器人的鲁棒性、安全性以及在高度动态环境下的表现,将是未来研究的重点。同时,随着机器人自主能力的增强,围绕其社会和伦理影响的讨论也将愈发重要。我们必须深思,当机器人能够像人类一样“思考”和“行动”时,它们将如何融入我们的社会,以及我们应如何负责任地引导这项技术的发展。

人才驱动:华人学者在具身智能前沿的贡献

值得一提的是,LeVERB团队中有半数成员是来自UC伯克利、卡内基梅隆大学等顶尖学府的华人学者,这体现了华人科研力量在全球AI前沿领域的深厚影响力。

项目的主要负责人薛浩儒,硕士毕业于卡内基梅隆大学(CMU),现于UC伯克利攻读博士学位。他曾在MPC Lab和LeCAR实验室进行机器人研究,并于NVIDIA GEAR实验室实习。他最引人注目的成就之一是领导了价值数百万美元的自动驾驶赛车研究项目AI Racing Tech。该项目在F1级自动驾驶赛车上部署了真实世界的机器人学习技术,最高时速达到160英里,并在2022年和2023年的美国印第安纳波利斯自动驾驶挑战赛中分别夺得亚军和季军,展现了他在复杂动态系统控制和机器人学习方面的卓越能力。1

另一位负责人廖启源,本科毕业于广东工业大学机电工程专业,目前是UC伯克利机械工程专业的博士研究生。他的研究专注于开发新型机器和驱动方式,结合学习和基于模型的方法,并协同设计硬件、学习和控制。他目前还在波士顿动力公司实习,这无疑为其研究带来了宝贵的行业洞察和实践经验。1

正是这些顶尖人才的交叉协作与不懈努力,共同推动了LeVERB这类前沿研究的诞生,也预示着人形机器人和具身智能的未来将更加光明。随着项目完整代码的即将发布,LeVERB有望成为社区进一步探索和创新的重要基础。

引用


  1. 人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示·量子位·闻乐(2025/6/25)·检索日期2025/6/25 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎