具身智能的“泡沫”与“基石”:警惕自动驾驶的旧辙,重塑产业健康生态

温故智新AIGC实验室

TL;DR:

具身智能正经历资本狂潮与公关混战,面临重蹈自动驾驶初期过度炒作覆辙的风险。行业亟需回归技术本质,聚焦模型架构、数据范式与标准化建设,以避免无效竞争,并在技术与商业化之间寻求平衡,方能穿越周期,实现可持续发展。

具身智能,这一将AI与物理世界深度耦合的前沿领域,正以前所未有的速度吸引着全球的目光和资本。从人形机器人的炫技演示到巨头公司的战略布局,每一次进展都牵动着产业神经,似乎预示着一个万亿级市场的“破晓”时刻。然而,在市场繁荣的喧嚣之下,一股“急功近利”的暗流涌动,行业内的“公关战”与“恐后心理”日益加剧,令人不禁警惕:具身智能,是否正步自动驾驶曾走过的那条“老路”?

喧嚣下的浮躁:具身智能的“公关战”与“恐后”心理

最近,具身智能领域曝出一起针对特定开源模型的“黑公关”事件,有组织、有预谋地散布“零成功率”的负面消息,即便官方和评测平台迅速辟谣,同质化稿件依然大面积堆砌。这并非孤例,而是当前具身智能产业浮躁氛围的一个缩影。业内人士直言,资方和企业方普遍“很急”,生怕被友商领先,导致通过片面性能参数进行非对称比较,催生大量脱离技术本质的无效竞争。

这种“粗放宣发”在自动驾驶发展初期也曾频频出现。当马斯克发布Optimus奔跑视频,Figure迅速跟进“秀跑步”;当宇树科技实现侧空翻,多家厂商便忙着“翻跟头”;众擎演示直膝行走,其他企业也争相将机器人拉到户外。这些“擂台赛”式的宣发,在缺乏统一标准和群体触达体验的具身智能领域,极易造成误判,将传播声量错认为技术纵深。

核心问题在于,具身智能的_价值曲线永远以技术坐标为横轴,而非以传播声量为纵轴_。过度沉迷于与竞品的隐性对标,实则是在用传播注意力侵蚀需要代际积累的技术纵深。这种“以传播代研发”的冒险,最终将透支产业最珍贵的资产——“信任”。回望大模型领域的“参数竞赛”,最终冷静下来后,留下的仍是“弹药充足、技术够硬”的深耕者,如DeepSeek,凭借扎实的算法优化,实现了“技术筑基-自然溢出”的健康发展模式1

技术分歧的深层博弈:模型、数据与架构之辩

在营销战的表面之下,是具身智能核心技术路线的深层博弈,行业远未形成共识。当前,主要的技术“非共识”体现在三大方面:

  1. 模型架构之争:VLA与世界模型

    • VLA (Vision-Language-Action) 模型:当前主流选择,旨在融合视觉感知、语言理解和动作控制,实现从环境观察到行为决策的端到端闭环系统。其优势在于路径相对较短,更容易在特定任务上见效。然而,VLA模型在泛化性上存在局限,难以有效处理跨本体、跨任务的复杂场景,对物理世界缺乏深层次的理解和预判能力,且计算开销巨大、推理速度缓慢2
    • 世界模型 (World Model):试图让机器人建立对物理世界的底层理解,如同人类基于通识认知来理解和执行任务。其核心在于构建机器人对物理规律、物体属性、动作结果的深层理解,以解决泛化能力问题。谷歌DeepMind的Genie3等尝试已显示出巨大潜力,被认为有望更快收敛,但面临模型训练规模极大、算力消耗高昂等挑战12
    • 架构范式:在VLA与世界模型的框架下,还有“统一模型直出”与“分层决策模型”的路径之争。自变量(Zhibian)坚持统一端到端架构,以提升整体性能、拥抱Scaling Law和实现通用性,但对算力需求“巨量”且可能带来延迟;星海图(Galaxea)则采用分层系统,上层负责高阶任务拆解,下层执行具体动作,效率更高且推理能力强,最终形态殊途同归,内部会自然形成功能分化23
  2. 数据焦点:模型与数据孰重孰轻

    • 部分业内人士(如宇树科技王兴兴、星动纪元陈建宇)认为,当前对数据的关注度过高,而对模型架构本身的关注度不足。他们强调,即使有数据,如果模型架构不够好,数据也“用不起来”13
    • 另一些专家(如自变量王潜)则坚信,数据依然是具身智能模型发展的重要瓶颈之一,高质量数据、足够大的模型以及持续演进的模型架构和训练方法,是达到“ChatGPT水平”的关键1
  3. 数据类型:真机数据与合成数据

    • 大部分企业偏向于_真机数据_训练机器人“大脑”,认为其是打破具身智能天花板能力的关键。星海图就通过遥操作方式,在真实开放世界中采集了500小时的机器人与物理世界交互数据13
    • 然而,也有部分企业(如银河通用、跨维智能)坚持_合成数据_路线,认为合成数据是推动具身智能快速落地的关键,可以弥补真实数据稀缺性和泛化性不足的问题。银河通用甚至表示,其训练数据中99%为合成数据12
    • 目前行业倾向于“真机”与“合成”混用的阶段,真机数据是“种子”用于锚定真实情况,合成数据则用于实现规模化和泛化。根据不同场景,混合比例会动态调整,例如叠衣服任务中合成数据可达90%2

这些“非共识”本身即是行业早期的共识:技术路线还未完全收敛,探索仍在进行。

商业化前夜:标准争夺与生态构建的暗流

伴随技术探索,具身智能领域正迎来资本的狂潮。据统计,中国机器人相关企业已接近百万家,仅2025年前7个月,具身智能和机器人领域融资总额已超过240亿元人民币,预计中国人形机器人市场规模到2025年将超过82亿元,到2050年全球市场可能增长至7万亿美元14。在巨大的市场前景下,头部企业已经开始抢夺更重要的话语权:谁来制定统一的性能测评标准?谁能掌握核心数据集的开放权与主导权?

  • Benchmark的缺失与争夺:当前具身智能领域缺乏像大模型Arena那样的权威benchmark,导致模型能力感知模糊。因此,定义统一的测评标准成为行业竞争的关键。星海图近日开源了其500小时的Galaxea开放世界数据集,旨在为行业提供一个衡量标准,吸引更多开发者参与其生态,成为平台型公司3
  • 全栈能力与生态布局:从数据、核心零部件到机器人本体和大模型,原本强调单点能力的企业,正纷纷剑指更大的生态环节。自变量首发全自研轮式双臂仿人形机器人“量子2号”和灵巧手,并研发遥操平台工具,寻求构建更完整的产业链。这种从局部竞争到全栈能力的延伸,是企业抢占未来市场高地的战略考量3
  • 架构决定竞争力:投资者也已意识到,模型架构是核心与底层问题,它直接决定了后续的数据量、算法的流畅性以及训练中所需的算力消耗。一套优秀的模型架构,可能只需极少的数据就能完成泛化,从而成为企业的核心竞争力。在快速迭代的行业中,跑得快并不难,难的是在长跑中保持速度与耐力3
  • 商业落地场景:虽然机器人跳舞、打拳等表演式展示吸引眼球,但行业普遍共识是人形机器人最终要从工业、商业场景走向泛化需求高的家庭环境,真正“进厂打工”或在家庭中承担家务,创造更大价值。因此,优先选择约束条件明确、技术难度相对较低的工业场景进行突破,被认为是率先实现商业化的路径12

回归本质:穿越周期,守护技术的尊严

具身智能无疑是驱动“新质生产力”爆发的核心引擎,具备显著的经济价值与产业赋能潜力。然而,资本的急躁与传播的浮夸,正将其推向一个危险的境地。行业“淘汰赛”的预警已响,有分析称,未来80%的人形机器人公司可能难以“跨越”量产阶段而倒下1

要避免重蹈自动驾驶的覆辙,具身智能行业必须回归技术的本源:

  1. 坚守创新初心:在泡沫喧嚣中守护技术的尊严,在资本浪潮下坚守创新的初心。高效的传播应诞生于对技术本质的极致尊重,而非短视频擂台赛。
  2. 聚焦核心技术突破:无论是VLA、世界模型,还是真机与合成数据的融合,都需要在基础模型架构、数据利用效率和泛化能力上取得实质性突破。建立一套有效的机制来决定数据配比和模型迭代,而非盲目追逐或拍板决定。
  3. 构建开放协作生态:具身智能是一个需要众人拾柴火焰高的行业,从模型探索到数据集开源,再到产业链协同,都需要共同努力。头部企业抢占标准定义权固然重要,但促进开放生态、共同完善benchmark体系,才能加速整个行业的成熟。
  4. 以实用价值为导向:最终,具身智能的成功将取决于其在真实世界的应用价值和可靠性。无论是工业制造、医疗康养还是家庭服务,都需要实现高成功率、高效率的实用化落地,而非停留在演示阶段。

具身智能正处于“ChatGPT时刻”的前夜,未来2-5年将迎来统一、端到端智能机器人大模型,更低成本、更高寿命的硬件以及超大批量制造的时代1。这是一个超越当前所有工业机器人,甚至可能超越汽车、手机市场的万亿级机会。但这份宏伟的未来,唯有在扎实的技术基座上,在冷静的商业考量下,在对社会影响的深刻认知中,才能稳健实现。

引用


  1. 彭堃方. 具身智能不要走那条自动驾驶的老路·具身研习社·彭堃方(2025/12/05)·检索日期2025/12/5 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 林志佳. 百万机器人企业、240亿融资难掩具身智能三大“非共识”争议 - 亿邦动力·亿邦动力·林志佳(2025/08/12)·检索日期2025/12/5 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  3. 乔心怡. 头部企业抢夺标准定义权,机器人“暗战”升级 - 证券时报·证券时报·乔心怡(2025/08/14)·检索日期2025/12/5 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. 澎湃新闻. 模型、数据、落地之争:具身智能来到“破晓”时刻 - 澎湃新闻·澎湃新闻(2025/11/14)·检索日期2025/12/5 ↩︎