谷歌的具身智能新策略:Gemini Robotics On-Device与“机器人安卓”生态的黎明

温故智新AIGC实验室

谷歌推出Gemini Robotics On-Device,一款优化后的端侧视觉语言动作(VLA)模型,能让机器人仅凭数十次演示便学习新任务,并可在本地设备上运行。此举被视为机器人领域的“安卓”时刻,预示着具身智能将加速落地物理世界,并可能重塑产业生态。

在人工智能与物理世界交汇的前沿,谷歌近日投下了一枚重磅炸弹:Gemini Robotics On-Device。这款模型被视为其强大视觉语言动作(VLA)模型Gemini Robotics的优化版,其核心突破在于实现了AI模型在本地机器人设备上的高效运行,并展现出惊人的任务泛化与快速学习能力。更引人注目的是,业界对其赋予了“机器人界的安卓”这一称号,预示着一个由AI“大脑”驱动、硬件厂商专注于实体打造的全新生态系统正浮出水面。1

技术突破与具身智能的飞跃

Gemini Robotics On-Device的核心在于将Google Gemini 2.0的多模态推理能力延伸至物理实体。不同于以往依赖云端算力的大型模型,On-Device版本经过精心优化,旨在最大限度地减少计算资源需求,使其能够在本地机器人设备上直接运行,实现低延迟推理12这意味着机器人不再需要持续的互联网连接来处理复杂的感知与决策,大大提升了其在现实世界操作的实时性和鲁棒性。

该模型最令人印象深刻的特性是其卓越的任务适应能力通用灵活性。它专为灵巧操作而设计,能够流畅处理双手协调的复杂任务,例如叠衣服、拉开袋子,甚至工业皮带组装。1谷歌的评估数据显示,Gemini Robotics On-Device在视觉泛化、语义泛化和动作泛化三项关键测试中均超越了此前的设备端模型,尤其在处理多步骤指令和复杂分布式任务方面表现出色。1

更具革命性的是,Gemini Robotics On-Device是谷歌首个可供微调的VLA模型。这意味着开发者无需从零开始训练,只需通过50到100次的演示(通常通过遥操作机器人完成),模型便能快速学习并掌握新技能。13这种“快速任务适应”能力,极大地降低了机器人部署和新任务开发的门槛,使得通用型机器人能够更迅速地适应千变万化的真实场景。此外,谷歌还展示了该模型在不同机器人形态上的适应性,包括ALOHA机器人、双臂Franka FR3以及Apptronik的Apollo人形机器人,这预示着其基础模型有望成为多种具身智能硬件的“通用大脑”。1

重塑机器人产业生态:从硬件到“大脑”

“机器人界的安卓”这一比喻,精准地捕捉了Gemini Robotics On-Device所蕴含的产业颠覆潜力。正如安卓操作系统将智能手机市场划分为硬件制造和软件生态两个核心领域,On-Device模型及其配套的Gemini Robotics SDK,有望在机器人领域催生类似的变革。这意味着:

  • 分工专业化:OEM厂商可以更加专注于机器人硬件的研发和制造,包括机械结构、传感器、执行器等,而无需投入巨大资源从头构建复杂的AI决策系统。Google则扮演了提供核心“大脑”的角色,赋能各类机器人。
  • 生态繁荣:Gemini Robotics SDK的发布,为开发者提供了评估和调整模型性能的工具,支持在MuJoCo物理模拟器中进行测试。这种开放性和易用性有望激发更广泛的开发者社区参与,加速创新应用的涌现,就像安卓生态系统吸引了无数应用开发者一样。14
  • 降低门槛:快速微调能力和本地部署特性,将使得中小型企业甚至个人开发者也能以更低的成本和更高的效率,开发出具备高级认知和操作能力的机器人,从而推动具身智能技术更广泛的商业化落地。

这种模式若能成功建立,将有助于打破目前机器人领域高度定制化、集成度高的传统模式,推动机器人行业进入一个更模块化、更具扩展性的新阶段。

具身智能的伦理维度与未来展望

随着AI模型能力深入物理世界,其伦理和社会影响的重要性也愈发凸显。谷歌在发布中强调,所有Gemini Robotics模型都遵循其人工智能原则进行开发,并应用了涵盖语义和物理安全的整体安全方法。1对于能够在真实环境中与人类互动、操作物体的机器人而言,确保其行为的_可预测性、安全性、透明性_至关重要。这不仅包括防止物理伤害,也涵盖了避免偏见、保护隐私以及确保决策过程的可解释性。

Gemini Robotics On-Device的问世,无疑是具身智能领域的一个里程碑。它解决了当前机器人部署中常见的延迟和连接挑战,并通过大幅提升任务适应性,为机器人从实验室走向日常生活和工业现场铺平了道路。未来,我们或许能看到更普遍的智能助手型机器人进入家庭,承担更多复杂的家务;在工厂车间,它们将成为更加灵活多能的协作伙伴;甚至在探索未知环境中,也能展现出前所未有的自主应变能力。

然而,每一次技术飞跃都伴随着新的挑战。如何确保这些高度智能、自主学习的机器人系统的安全可控?如何平衡技术发展与伦理治理?以及,当机器人变得越来越“聪明”和“通用”时,它们将如何重塑我们的工作、社会结构乃至人与技术的关系?谷歌此次发布不仅展示了其在具身智能领域的领先地位,更开启了一场关于未来机器人形态与人类社会深度融合的深刻对话。

引用


  1. 谷歌推端侧VLA模型,机器人版安卓问世,50次演示就能学会新动作·智东西·李水青、心缘(2025/6/25)·检索日期2025/6/25 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 刚刚,首个能在机器人上本地运行的具身Gemini来了·网易新闻(2025/6/25)·检索日期2025/6/25 ↩︎

  3. 谷歌发布Gemini Robotics On-Device,实现机器人AI模型本地运行·网易新闻(2025/6/25)·检索日期2025/6/25 ↩︎

  4. Google推端側VLA模型,機器人版安卓問世,50次演示就能學會新動作·新浪香港科技(2025/6/25)·检索日期2025/6/25 ↩︎