具身智能元年:宇泛智能的“软硬兼施”全栈突围与未来镜像

温故智新AIGC实验室

TL;DR:

在具身智能的“元年”浪潮中,深耕视觉AI 11年的宇泛智能,凭借其深厚的“智能+硬件”基因,正通过全栈自研的Manas空间认知大模型和四足机器狗,强势切入具身智能赛道。此举不仅是技术演进的必然,更是其从感知智能迈向具身认知的战略性跨越,预示着机器人将真正拥有理解、决策和行动的能力,开启物理世界交互的新篇章。

蛰伏与爆发:战略性回归具身智能本源

2024年被业界普遍视为“具身智能元年”1,这一概念的核心在于让AI不仅“看懂”和“听懂”,更要“行动”和“思考”,将智能体嵌入物理世界,实现真正的具身认知(Embodied Cognition)。在这个风口浪尖,一家拥有11年视觉AI技术沉淀的公司——宇泛智能,宣布全面投身具身智能战场,并发布了两款核心产品:空间认知大模型Manas和自研四足机器狗。这并非一次突兀的转向,而是一场深思熟虑且能力累积充分的战略性回归与进化

宇泛智能董事长赵弘毅透露,公司最初的创业梦想便是做智能机器人,甚至在2014年便以家用机器人的Demo获得了天使轮投资1。然而,受限于当时的技术成熟度与团队规模,他们选择了从最擅长的图像识别领域切入,并在AI 1.0时代成功构建了“智能+硬件”的商业闭环,在安防、工地、社区等垂直场景实现了规模化落地。如今,随着大模型技术,尤其是多模态大模型的崛起,AI正从感知智能迈向具身智能的2.0时代,这为宇泛重拾初心、实现技术跃迁提供了成熟的外部条件。这种“念念不忘,必有回响”的内在驱动力,结合外部技术浪潮的助推,构成了宇泛此次战略性布局的深层逻辑。

核心能力解析:重塑物理世界的感知与决策大脑

宇泛智能此次亮出的两款具身智能产品,直指具身智能的核心要素:大脑、小脑与本体

其一,空间认知大模型Manas被定位为宇泛具身智能硬件的“大脑”。这是一个经过具身智能场景强化的多模态语言模型(MLLM),其核心创新在于深度融合了语言理解与空间感知能力。传统的多模态模型(如通用型GPT-4o)在图像识别和语言理解上表现出色,但往往缺乏对三维物理世界的精确感知和长程规划能力,难以支撑机器人精准抓取、路径规划等复杂任务。Manas通过对开源大模型底座进行空间理解层面的诱导训练和强化,并在VSI-Bench、SQA3D等业界流行的空间理解数据集上取得了SOTA(State-of-the-Art)成绩1,这表明它能精准感知物体的实际尺寸、相对方位、空间布局等几何信息。

Manas的技术底座源于宇泛自研的多模态推理架构UUMM(去年底发布)和HiMTok(今年3月发布)。UUMM适配具身智能场景,能够接收人类的语言和视觉输入并输出行动指令,形成快速迭代优化的闭环。而HiMTok则通过创新方法实现了大模型图像分割能力的内生式集成,推动模型从单一文本输出向图像、机器人动作等多模态升级,进一步强化了Manas在具身智能场景中连接感知、决策与人类指令的核心控制中枢角色。

其二,宇泛发布的自研四足机器狗,则代表了其在机器人本体和运动控制(即“小脑”)上的深厚积累。这款机器狗的机械结构、电机、运动控制平台及能力均由宇泛团队自研,经历了多代迭代,这在当前具身智能本体技术路线尚未收敛、硬件标准不统一的行业背景下,显得尤为关键2。它确保了“大脑”Manas与“身体”和“小脑”的无缝协同,是实现高精度物理世界交互的基础。

值得强调的是,宇泛智能认为视觉能力是具身智能发展的核心入口。赵弘毅指出,视觉信息密度最高、通用性最强,它不仅决定机器“看到什么”,更直接影响机器“下一步做什么”1。这与计算机视觉派在具身智能领域的主导地位不谋而合,也印证了李飞飞等学者对视觉在机器人认知中关键作用的强调。

“智能+硬件”基因的深层价值:全栈自研的必然选择

宇泛选择全栈自研(大脑、小脑和本体)的路线,在当前具身智能产业混沌未开的阶段,是其“智能+硬件”基因的必然延伸,也蕴含着深刻的商业与技术考量:

  1. 技术路线未收敛下的品质与协同保障:当前的具身智能领域,技术路线百花齐放,硬件标准尚未统一。这意味着不同厂商的机器人本体在自由度、传感器数量等方面差异巨大,导致基于数据训练的算法难以跨本体迁移。在这种背景下,若算法与硬件分离采购,将极大限制产品质量、品控和效果的极致追求。宇泛的全栈自研,旨在最大限度地确保“大脑”、“小脑”与“本体”间的协同与融合效率,从而在真实世界中实现更稳健、更精准的操作与交互2

  2. 过往“软硬协同”经验的复用与迭代:宇泛在AI 1.0时代便积累了丰富的软硬件协同开发经验。他们曾通过“以整型压缩替代浮点、逐层逼近硬件极限”等创新方法,在端侧算力不足的摄像头硬件上重构算法,实现端到端性能优化,成功商业化并规模化交付。这种基于硬件性能限制进行算法适配和优化的能力,正是具身智能机器人落地所急需的。它为宇泛在新赛道的快速产品验证和量产落地奠定了坚实基础。

  3. 商业闭环与竞争壁垒的构建:赵弘毅认为,在具身智能时代,单纯依靠算法难以走远。初创公司若只做基础模型,难以与国内外科技巨头的巨额资源投入抗衡。同时,在中国市场环境下,仅凭MLLM来推进机器人大脑,企业很难走通商业化落地闭环。宇泛通过全栈自研,构建起**“智能+硬件”的技术闭环**3,并结合过去十一年沉淀的丰富渠道、供应链、产品化和全球销售体系,形成了从技术到市场的全链路优势,为在激烈的市场竞争中脱颖而出提供了有力保障。

未来图景展望:具身智能的商业浪潮与社会变革

宇泛智能的战略性布局,是全球具身智能浪潮的一个缩影。随着视觉能力带来的更强泛化性,机器人正从完成单一场景任务的“专才”向具备更强通用能力的“通才”演进,这将极大地拓展其商业应用边界。

未来3-5年,具身智能领域将经历一个快速迭代和洗牌的过程。拥有像宇泛这样深厚软硬协同能力、全栈自研实力,并具备商业化落地经验的企业,将更有可能在市场中占据优势。投资也将持续涌入该领域,尤其是那些能够提供可量产、可部署、具备实用价值的具身智能解决方案的公司。

从社会影响来看,具身智能的普及将深刻改变人类与物理世界的互动方式。它们将不仅仅是工具,更是具备一定自主决策和学习能力的协作伙伴。在工业领域,它们将进一步提升自动化水平和生产效率;在服务业,它们将提供更个性化、智能化的服务;而在家庭场景,它们可能成为智能家居的真正核心,甚至在老龄化社会中扮演重要的陪伴和辅助角色。然而,随之而来的伦理挑战也日益凸显,如机器人自主决策的边界、数据隐私、就业结构性调整以及人类与机器关系的重塑,都将成为未来社会需要深思和共同应对的议题。宇泛此次强调“让它们真正学会自主思考与决策”,也预示着对机器人更深层认知能力和责任边界的探索。

宇泛智能的“回归·再出发”不仅是自身发展的里程碑,更是具身智能从实验室走向大规模应用的时代注脚。他们的实践将为AI 2.0时代的商业化路径、技术融合策略以及社会影响评估提供宝贵的样本。

引用


  1. 当一家成立11年的AI公司投身具身智能战场 · 数智前线 · 徐鑫(2025/8/19) · 检索日期2025/8/19 ↩︎ ↩︎ ↩︎ ↩︎

  2. 当一家成立11年的AI公司投身具身智能战场 - 36氪 · 36氪(2025/8/19) · 检索日期2025/8/19 ↩︎ ↩︎

  3. 回归·再出发,宇泛智能十一周年庆典暨合作伙伴大会在杭盛大启幕 · asmag.com.cn(2025/08/13) · 检索日期2025/8/19 ↩︎