具身智能的失语:当机器人硬件已臻成熟,大模型为何仍陷“荒漠”?

温故智新AIGC实验室

TL;DR:

宇树科技创始人王兴兴指出,当前机器人发展的核心瓶颈并非硬件,而是AI大模型在多模态融合及具身智能应用方面的能力不足。这揭示了通用大模型在真实物理世界中,从信息处理到实际“干活”的巨大鸿沟,亟需业界从参数竞赛转向深度融合与实用性创新,以实现真正的人机协作与智能体落地。

在人工智能浪潮席卷全球的当下,大型语言模型(LLMs)以其惊人的文本生成与理解能力,重塑了数字世界的工作流。然而,当我们将目光投向物理世界,试图让机器人拥有与人类匹敌的智能时,一个引人深思的矛盾浮出水面。宇树科技创始人兼首席执行官王兴兴在2025外滩大会圆桌讨论环节抛出重磅论断:机器人最大的问题并非硬件,而是AI大模型本身能力不够,尤其在多模态融合方面表现欠佳 12。这一观点不仅挑战了普遍认知,更深刻揭示了具身智能(Embodied AI)从概念走向现实的深层瓶颈。

技术瓶颈的深层剖析:大模型何以“不够用”?

当前大模型的迅猛发展,主要集中于信息处理和生成领域。无论是纯语言模型在自然语言理解与生成上的突破,还是纯视觉模型在图像识别与生成上的优异表现,都令人叹为观止。然而,“如果要把语言和图像很好地结合起来,仍是一个较大的难点” 1。这正是多模态融合的核心挑战,也是机器人与物理世界交互的基石。机器人需要同时理解视觉、听觉、触觉等多源信息,并将其转化为精确的物理动作,而现有大模型在此环节的表现远未达到实用水平。

  • 多模态融合的“失语症”:王兴兴指出,虽然AI在信息处理领域已表现出色,但“让AI干活的领域还是荒漠,只是长了几棵小草,爆发性增长的前夜还未到来” 1。这意味着大模型虽然可以“看懂”和“听懂”世界,但却无法有效地“操控”世界。例如,如何让模型控制机器人灵巧手完成复杂精细的操作,仍是一个巨大的挑战 3。这种“失语症”源于大模型在跨模态语义映射、物理世界常识推理及实时决策反馈方面的欠缺。
  • 从逻辑推理到具身智能的鸿沟:目前大部分大模型停留在基于已有数据和预设规则的逻辑推理层面,缺乏真正的理解和创新能力 1。它们擅长模式匹配和统计规律,但在面对模糊、复杂、动态变化的现实场景时,往往力不从心。例如,让机器人“帮我找找昨天收到的快递,可能放在门口的鞋柜或者沙发底下等地方”,这对于人类而言是基于常识、经验和灵活判断的简单任务,但对机器人而言,需要对时间、物品、空间位置等多重信息进行理解,并具备视觉搜索、物体识别、路径规划和交互反馈等综合能力,这对于当前的大模型是巨大挑战 1。这种从“理解文字图像”到“理解物理世界并采取行动”的质的飞跃,是当前大模型面临的根本性障碍。

具身智能的逻辑跃迁:从“工具”到“智能体”的鸿沟

具身智能的核心在于赋予机器人感知和行动能力,使其能在真实环境中自主完成任务。王兴兴的观点恰恰揭示了,尽管机器人硬件(如传感器、执行器、机械结构)已足够先进,“用一两年都可以” 1,但作为“大脑”的AI模型却严重滞后。硬件与软件之间的这种不匹配,构成了具身智能从“工具”走向“智能体”的关键障碍。

  • 人类思维与机器思维的差异:人类在处理问题时依赖直觉、经验和创造力,能够快速做出判断。而大模型则基于统计规律和模式匹配,缺乏对事物本质的理解 1。这种思维方式的根本差异,使得大模型在面对复杂多变的现实世界时,难以展现出人类的灵活性和适应性。它们需要海量标注数据进行训练才能识别特定对象,但仍难以应对不常见或具有特殊含义的场景。
  • 构建“符合实际工作需求的大脑”:具身智能的未来,不在于简单的工具化机器人,而在于能够像人一样工作的智能体。这要求机器人大模型不仅具备全面的生活常识、情感理解,甚至社交沟通能力,更重要的是能够实现端到端(end-to-end)的统一智能,将感知、认知、决策和行动无缝连接 4。目前,大模型仍处于“工具化”阶段,其能力边界清晰,难以应对真实世界中的普遍模糊性与不确定性 1
  • 从参数竞赛到效率与融合:业界长期以来过度关注大模型参数规模的扩大,认为“简单低质量地卷参数已经意义不大” 1。这种粗放式增长带来了高昂的训练成本、推理速度慢和可解释性差等问题,且并未从根本上解决具身智能的应用难题。未来的方向应是优化训练方法和算法,提高模型在更少数据和计算资源下的性能,并加强大模型与机器人硬件的深度融合,实现软硬件的协同优化 1

产业生态与商业版图的重构:从参数竞赛到实用主义

王兴兴的直言不讳,为正处于“AI爆发性增长前夜”的机器人产业指明了新的方向,也重塑了投资和技术研发的关注焦点。

  • 投资逻辑的转向:资本市场对AI的热情不减,但纯粹追逐通用大模型“大而全”的叙事可能面临调整。未来,投资将更青睐那些专注于解决具身智能核心难题、实现模型与硬件深度集成、具备实际落地能力的解决方案和企业。对“机器人端侧的模型架构”的突破性研究将变得至关重要 3
  • 产业生态的差异化竞争:对于像宇树科技这样在机器人硬件领域深耕的企业而言,其核心竞争力将不再仅限于机械设计和运动控制,更在于如何与AI大模型厂商深度协作,共同打造“具身智能大脑”。这预示着机器人产业将形成更为精细化的分工和协作模式,硬件厂商、算法公司、数据提供商以及应用场景方将构建一个复杂而紧密的生态系统。
  • 商业模式的潜力释放:当具身智能大模型真正成熟,能够驱动机器人完成复杂的、模糊的、非结构化的物理任务时,其商业价值将呈指数级增长。从智能制造、仓储物流,到家庭服务、医疗康复,甚至农业生产和极端环境作业,都将涌现出千亿甚至万亿级的市场机遇。届时,机器人将不再是特定任务的工具,而是能够融入人类生活、生产的智能助手,甚至成为新的生产力要素

AI伦理与社会未来:重新定义“智能”与“劳动”

王兴兴的洞察也引出了关于AI与人类未来关系的深层哲学思考。一个广为流传的段子精准地表达了这种期待与焦虑:“我想AI应该是帮我做洗衣和洗碗的活儿,好让我去玩艺术、搞创作;而不是AI去玩艺术搞创作让我来做洗衣洗碗的活儿” 1。这反映了人类对于AI发展路径的深切期望——AI应是解放人类劳动的工具,而非取代人类创造力的竞争者。

  • 重新定义“劳动”与“智能”:当前大模型在创意、内容生成方面展现出强大能力,却在物理操作上步履维艰,这使得“智能”的定义变得更加复杂。如果AI擅长精神劳动,而人类被挤压到物理劳动,这种颠覆将带来深刻的社会结构和伦理挑战。未来,我们需要重新审视哪些是真正需要人类智慧和情感参与的“劳动”,以及AI如何更好地与人类协作,实现社会福祉的最大化。
  • 未来工作与教育的变革:王兴兴认为“现在是对年轻人非常友好的时代,AI时代是一个非常公平的时代”,并鼓励年轻人“把AI不仅仅当作一个工具,还可以把它当作一个全能型的工具,去重新学习和接受它,把它用得更好” 1。这预示着未来教育和职业发展将更加强调人类利用AI进行创造性、复杂性工作的能力,而非简单重复劳动。
  • 道德边界与社会治理:随着具身智能的推进,其决策和行动将直接影响物理世界,引发新的伦理问题:机器人的责任归属、数据隐私、以及如何确保AI的决策符合人类价值观。AI伦理与治理的框架建设,将成为与技术发展同等重要的议题。

展望:通往真正智能体的路径

王兴兴的观点不仅是对当前技术局限的揭示,更是对未来发展方向的有力指引。要让大模型真正“够用”,并推动具身智能实现质的飞跃,业界需聚焦以下几个关键路径:

  1. 突破多模态深度融合:不再停留在简单的信息拼接,而是实现跨模态信息的语义级、认知级融合,让模型能够真正理解物理世界中的对象、动作、意图和上下文。这需要创新的模型架构和训练范式。
  2. 构建物理世界模型与常识推理:让AI具备对物理规律、因果关系和人类社会常识的理解,而不仅仅是数据关联。这将是实现真正自主决策和应对不确定性的关键。
  3. 发展高效的“机器人侧”模型:考虑到机器人端侧的计算资源限制,需要研发更轻量化、高效、可部署的专用大模型,实现感知、决策、控制的一体化。
  4. 强化虚实结合的训练范式:利用仿真环境进行大规模、多样化的训练,并通过**sim-to-real(从仿真到现实)**技术,将学习到的策略高效迁移到真实机器人上,大幅降低训练成本和时间。
  5. 软硬件协同的深度优化:从设计之初就将AI大模型的特点融入机器人硬件设计,实现感知系统、执行器和计算平台的深度集成和优化,确保二者能够最大限度地发挥协同效应。

王兴兴所提出的挑战,并非悲观论调,而是具身智能黎明前的号角。大模型的“不够用”,并非数量不足,而是智能深度与实用性尚待质的飞跃。这场从“信息处理”到“物理干活”的逻辑跃迁,将是未来3-5年内,AI领域最具挑战性也最具潜力的创新高地。谁能率先弥合这一鸿沟,谁就将主导下一代智能科技的商业版图,并深刻影响人类文明的进程。


引用


  1. 王兴兴:机器人最大的问题还是AI模型?大模型怎么不够用了?·江瀚视野观察·江瀚视野观察(2025/9/14)·检索日期2025/9/14 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 王兴兴谈机器人困境:AI大模型缘何“不够用”?智能深度待突破-新科技·新科技(2025/8/11)·检索日期2025/9/14 ↩︎

  3. 宇树CEO 王兴兴提到具身智能的AI 技术发展滞后·知乎(2025/8/11)·检索日期2025/9/14 ↩︎ ↩︎

  4. 机器人产业临界点将至:王兴兴揭示大模型成规模化最大挑战·52解决方案网(2025/8/11)·检索日期2025/9/14 ↩︎