谷歌DeepMind发布了Gemini Robotics On-Device,首次将多模态具身智能模型直接部署到机器人上,无需互联网连接即可实现低延迟操作和强大的任务泛化能力,标志着具身智能迈向自主、普及的关键一步。
具身智能(embodied AI)的愿景,在于赋予机器人理解、推理并主动在物理世界中行动的能力。长期以来,实现这一目标面临着巨大的计算挑战,尤其是在边缘设备上实时运行复杂AI模型的需求。然而,谷歌DeepMind的最新发布——Gemini Robotics On-Device——正试图改变这一格局,它将强大的视觉-语言-动作(VLA)模型直接带到机器人本体上,无需持续的云端连接,从而打开了机器人自主性和适应能力的新篇章。
具身智能的本地化突破
Gemini Robotics On-Device是谷歌DeepMind针对机器人领域推出的Gemini家族新成员,其核心创新在于实现了本地化部署。这意味着该模型能够直接在机器人硬件上运行,摆脱了对稳定互联网连接的依赖。在传统架构中,机器人的决策往往需要将感知数据上传至云端进行处理,再将指令下发,这不仅引入了显著的延迟,也限制了机器人在网络不稳定或无连接环境中的应用。而本地运行则彻底解决了这些问题,确保了操作的即时性和鲁棒性1。
这款模型基于多模态推理能力强大的Gemini 2.0,针对最大限度减少计算资源需求进行了优化,特别适合快速进行灵巧操作实验。DeepMind的实验结果显示,即使在本地运行模式下,Gemini Robotics On-Device在视觉、语义和行为泛化能力方面也展现出显著优势。它在广泛的测试场景中能够遵循自然语言指令,执行诸如拉开袋子拉链或折叠衣服等高度灵巧的任务。与之前最佳的本地端机器人模型相比,Gemini Robotics On-Device在标准泛化任务,尤其是在更具挑战性的“分布外(out-of-distribution)”任务和复杂的多步骤指令方面,表现出明显优越的性能,这为其在现实世界中的广泛应用奠定了基础。
灵活性与泛化能力的延伸
本地化运行固然重要,但模型的通用灵活性和任务泛化能力才是决定其应用前景的关键。Gemini Robotics On-Device是DeepMind推出的首个可供微调的VLA模型,这意味着开发者无需从零开始训练,只需通过少量演示(通常为50到100个)即可让模型快速适应新任务。这种“小样本学习”能力极大地降低了机器人部署的门槛和成本,使得机器人能够更迅速地适应特定环境和需求。
DeepMind在七项不同难度的灵巧操作任务上验证了模型的适应性,包括拉开午餐盒拉链、画卡片和倒沙拉酱等。更令人印象深刻的是其跨具身泛化能力。该模型最初在ALOHA机器人上进行训练,但实验证明,它可以进一步微调并成功应用于其他完全不同形态的机器人,如双臂Franky FR3机器人和Apptronik的Apollo人形机器人。在Franky机器人上,它能处理未见过的物体并执行复杂的工业皮带装配任务;在Apollo人形机器人上,它也能良好适应,遵循自然语言指令对不同物体进行通用操作。这种跨平台适应性,预示着未来具身AI模型可能实现“一次训练,多处部署”,极大地加速了机器人技术的商业化进程。
为了进一步赋能开发者,谷歌还将发布Gemini Robotics SDK。通过该SDK,开发者可以在DeepMind的MuJoCo物理模拟器中测试和评估模型表现,并高效地将其适应到新领域。值得一提的是,与该SDK相关的MuJoCo Playground项目,刚刚荣获了机器人科学与系统会议(RSS 2025)的杰出演示论文奖,这进一步印证了其在机器人仿真领域的领先地位。
更广阔的产业图景与考量
Gemini Robotics On-Device的发布,不仅仅是技术上的突破,更是在描绘一个更加自主化、普及化的机器人时代。当机器人不再受制于网络连接,它们将能够进入更广泛、更复杂的环境,例如偏远地区的农业、灾难救援、家庭服务,甚至深空探索。这不仅能提升工作效率,也能在一定程度上弥补劳动力短缺问题。
然而,随之而来的深层影响和伦理考量也值得关注。当AI模型在本地拥有高度自主决策能力时,如何确保其行为的安全性、可控性和透明度变得尤为关键。本地化处理虽然可能在数据隐私方面提供一定优势(数据无需上传云端),但同时,机器人“离线”自主运行时的行为边界、责任归属以及面对不可预测情况时的应急机制,都需要行业和监管机构共同深思并建立健全的规范。
值得注意的是,在发布Gemini Robotics On-Device的同时,谷歌DeepMind也在调整其更广泛的AI模型策略。例如,免费用户可用的Gemini Flash模型额度有所下调,而Imagen 4和Imagen 4 Ultra等图像生成模型也已在谷歌AI Studio和Gemini API中推出2。这种调整反映了谷歌在AI商业化道路上的审慎考量:一方面持续推动前沿技术创新以保持领先地位,另一方面也在探索如何平衡免费试用与付费服务,将尖端AI能力转化为可持续的商业价值。
Gemini Robotics On-Device的问世,无疑是具身智能领域的一次重要飞跃。它让机器人离真正的“智能自主体”更近了一步,但这条道路依然漫长,充满技术挑战、伦理考量以及社会适应的复杂性。如何确保这些强大的本地化AI系统能够安全、普惠地服务于人类社会,将是未来几年我们必须面对的核心议题。