TL;DR:
宇树科技创始人王兴兴在IPO后首次公开亮相,直言当前AI在实际“干活”方面仍是一片“荒漠”,核心瓶颈在于高质量数据和多模态模型算法的融合与对齐。他强调,尽管硬件能力已足够,但AI模型自身能力的滞后,使得具身智能的商业化落地面临巨大挑战,同时也为创新创业者指明了新的破局方向。
在人工智能浪潮席卷全球,生成式AI(AIGC)以“文画巨匠”之姿惊艳世人时,一个更深层、更具挑战的领域——具身智能(Embodied AI)——正等待着被真正唤醒。宇树科技创始人兼CEO王兴兴,这位在机器人领域取得非凡成就的领军人物,在其公司宣布IPO计划后,首次在外滩大会上发声,对当前大模型时代AI的实际应用发出了振聋发聩的警示:“现在AI干活还是一片荒漠。”1 他的洞察,不仅揭示了具身智能发展的深层瓶颈,也为我们理解AI从“感知”走向“行动”的漫长征程提供了宝贵的视角。
从“虚拟神迹”到“物理困境”:AI落地生产力的真实挑战
王兴兴的观点无疑泼了一盆冷水,却也极为清醒。他承认,AI在文本生成、图像创作等虚拟世界中已超越绝大多数人类,展现出令人叹为观止的创造力。然而,当AI被要求进入物理世界,完成实际任务,如机器人做家务、操控灵巧手等,其能力却骤然跌入“荒漠”2。这种**“虚拟神迹与物理困境”**的反差,正是当前具身智能发展面临的根本矛盾。其核心在于,虚拟世界的“生成”逻辑与物理世界的“行动”逻辑之间存在一道难以逾越的鸿沟,而数据与模型算法正是连接这两端的桥梁。
数据之困:具身智能的“感知鸿沟”与“经验瓶颈”
王兴兴明确指出,当前具身智能发展的首要挑战来自高质量数据3。他认为,机器人的数据采集、去噪、质量控制都存在巨大问题,对于何为优质数据、如何高效采集、规模应多大等关键问题,业界仍处于“模糊阶段”1。
“对于真正优质数据怎么采,数据的质量应该达到什么样的程度,应该采集什么类型的数据?多大的规模?都处于比较模糊的阶段。”1
这种数据层面的“感知鸿沟”意味着,机器人难以从现有数据中建立对复杂物理世界和任务的准确理解与高效利用。高质量、多样性、低噪声的数据是训练具身智能模型的基石,它不仅需要包含丰富的视觉、触觉、听觉信息,更要融入任务执行过程中的时序逻辑与交互反馈。缺乏这些,AI便无法形成有效的“经验”来指导其在物理世界中的决策与行动。从商业敏锐度来看,这意味着在AI基础设施投资中,对数据标注、合成数据生成、数据治理和利用率提升等领域的投入将成为新的增长点,甚至催生专注于高质量机器人数据服务的新商业模式。
算法之殇:多模态融合与控制对齐的瓶颈
除了数据,模型算法层面的挑战同样严峻。王兴兴提到,目前多模态的融合仍不理想,纯语言模型或纯视频模型效果出色,但要将语言和图像甚至更广的传感器模态有效结合,并驱动机器人完成复杂任务,仍是“当下比较大的难点”4。例如,让机器人根据一个生成视频学习做家务,视频生成本身可能已经很出色,但如何将视频的抽象指令转化为机器人精细的控制模态并实现对齐,是一个极具挑战性的技术难题1。
这涉及到具身智能的核心技术瓶颈:
- 多模态信息融合:如何让模型有效整合来自不同传感器(视觉、触觉、力觉等)的信息,形成统一、全面的环境理解。这不仅是数据编码的问题,更是模型架构如何处理异构数据流、捕获跨模态依赖关系的前沿研究。
- 生成与控制对齐:从高层次的抽象指令(如“做家务”)到低层次的机器人关节控制(如拿起杯子、擦拭桌面),需要复杂的任务分解、路径规划和精细运动控制。当前的AI模型在实现这种从“意图”到“执行”的无缝转化方面,表现力仍显不足。这不仅是算法效率问题,更触及了机器人学与深度学习的深层结合,需要跨学科的理论突破。
硬件的“超前部署”与AI模型的“能力滞后”:投资逻辑的转向
一个耐人寻味的洞察是,王兴兴指出,在具身智能领域,硬件目前是足够用的,甚至一两年前的硬件都完全足够用1。这与芯片、算力领域不断追求硬件极限的普遍认知形成鲜明对比。他认为,最大的问题在于AI模型本身能力不够,无法很好地把这些硬件利用起来,比如通过AI控制灵巧手做更精巧的事情。
这一论断对AI领域的投资逻辑具有深远启示:
- 硬件瓶颈的缓解:意味着单纯追求硬件性能提升的边际效益正在递减,至少在具身智能的某些特定应用场景中是如此。
- 软件与算法的价值凸显:资本的目光将更多地转向AI模型设计、训练方法、数据策略以及如何让现有硬件发挥更大潜能的软件层创新。这将推动对具身智能操作系统、仿真环境、通用型机器人基座模型等领域的投入。
- 产业生态的重构:那些能够提供高质量数据解决方案、开发出突破性多模态融合算法、并能有效将AI模型与物理控制系统对齐的企业,将成为新的价值高地。
商业化前景与产业生态重塑:在“荒漠”中寻觅绿洲
尽管挑战重重,王兴兴对未来仍持乐观态度。他认为,当前创新创业的门槛大幅降低,年轻创新者迎来了“好时代”,真正可以用AI工具实现新创意,而小组织的爆发力会越来越强1。
具身智能的商业化前景虽然尚处于“大规模爆发性增长的前夜”,但一旦数据和算法瓶颈被突破,其市场潜力将是万亿美元级别。从工业自动化、服务机器人、智能家居到医疗康复,具身智能将彻底重塑传统产业格局,创造全新的服务体验和生产力模式。早期进入并解决核心技术痛点的公司,如宇树科技,有望凭借其硬件优势和对AI落地的深刻理解,在未来的具身智能生态中占据关键地位。资本将寻找那些不仅拥有前沿算法,更能够搭建高效数据闭环、拥有行业场景落地能力的“全栈型”或“生态型”公司。
穿越“具身荒漠”:未来发展路径与哲学反思
穿越“具身荒漠”,将AI从“文画巨匠”真正蜕变为“具身劳动者”,需要多维度的努力。
- 数据层面:未来3-5年,合成数据(Synthetic Data)和自监督学习(Self-Supervised Learning)将扮演关键角色,以弥补真实世界数据采集的成本高昂和质量不均问题。同时,建立跨行业、标准化的机器人行为数据集和评估体系也至关重要。
- 模型算法层面:多模态大模型将朝着更深层次的融合方向演进,引入更多物理世界的先验知识,并开发出更鲁棒、更泛化的控制算法。从模仿学习(Imitation Learning)到强化学习(Reinforcement Learning),再到基于世界模型的规划,具身智能将逐步具备更强的自主决策和适应能力。
- 社会与伦理:随着具身智能逐渐融入人类社会,其决策透明度、安全性、以及对就业结构的影响将是亟待解决的伦理与治理议题。如何确保AI在物理世界的行动符合人类价值观,避免“意外行为”带来的风险,将是技术进步之外的更深层思考。
王兴兴的“荒漠”论,并非悲观主义的宣告,而是一次对现实的精准校准,一次对未来路径的指引。它提醒我们,真正的AI革命,不仅在于其能做什么,更在于它如何在物理世界中有意义地“行动”。这种从虚拟到物理的飞跃,不仅是技术上的挑战,更是一场关于智能本质、人类与机器共存的深刻哲学思辨。年轻的创新者,正如王兴兴所言,“忘记过去的经验,学习当下最新的知识,全力拥抱新时代”1,因为在具身智能的“荒漠”之中,正孕育着参天大树,等待着被智慧与汗水浇灌。
引用
-
宇树IPO后,王兴兴现身外滩大会首次发声:现在AI干活还是一片荒漠,挑战来自数据和算法 · AI前线 · 冬梅 (2025/9/12) · 检索日期2025/9/12 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
宇树科技王兴兴:具身智能尚存数据与算法挑战 · 中国证券网 · (2025/9/12) · 检索日期2025/9/12 ↩︎
-
宇树科技官宣IPO后王兴兴现身外滩大会现在是“AI干活”大时代到来前夜! · 证券时报网 · (2025/9/12) · 检索日期2025/9/12 ↩︎
-
AI诊室、具身智能……这届外滩大会人工智能含量“爆表” · 新华网 · (2025/9/12) · 检索日期2025/9/12 ↩︎