哥伦比亚大学的一项开创性实验,由胡宇航主导,展示了一款人形机器人如何通过“照镜子”进行自监督学习,从而自主习得面部表情。这项技术为“首形科技”的“人脸机器人”奠定了基础,挑战了传统人形机器人以生产力为导向的商业模式,转而聚焦于提供情绪陪伴和建立深层情感连接,预示着机器人与人类互动的新范式。
一个寂静的实验室里,一尊人形机器人正对着镜面,传感器捕捉着自身每一个细微的面部肌肉抽动,神经网络默默地将这些视觉反馈与内部电机指令关联起来。这不是科幻电影《西部世界》中的场景预演,而是哥伦比亚大学的一项真实实验,旨在探索机器人自我建模、习得表情的可能性。这项由28岁的博士毕业生胡宇航主导的突破,正为我们理解机器人情感表达及其商业化路径,打开一扇全新的窗户。1
具身智能的情感表达:超越恐怖谷
长期以来,为机器人赋予逼真且自然的表情,一直是具身智能领域的一大挑战。“恐怖谷效应”——即机器人与人类相似度达到一定程度后,其微小的不完美反而会引发人类的厌恶和不安——是横亘在技术与用户体验之间的一道鸿沟。传统方法,如通过预设方程或将人类面部坐标映射到机器人上,往往导致表情僵硬、呆板,难以摆脱恐怖谷的阴影。
胡宇航和他的“首形科技”团队选择了一条截然不同的路径:自监督学习。他们的机器人通过“照镜子”来学习。机器人的摄像头充当“眼睛”,观察镜中自己的面部表情变化,同时记录下驱动这些表情的电机指令。这个过程类似于人类对着镜子练习表情或舞蹈,通过反复的自我观察和调整,建立起“动作指令”与“视觉表现”之间的内在联系。1
“表情模型的自监督学习与语言模型的核心区别,在于它们依赖的模态和监督信号不同。……表情模型的自监督学习则是跨模态进行学习,主要利用人说话的视频,自动对齐语音信号与面部表情,学习它们之间的自然对应关系。”胡宇航解释道。1
这种“端到端”的深度学习模式,使得机器人能够生成更平滑、连续的表情变化。更关键的是,它不依赖于僵硬的“喜、怒、哀、乐”等离散情绪标签,而是将表情建模为嵌入空间中的连续表示。这意味着机器人无需“理解”情绪的抽象标签,而是学会根据语境和声音信号,输出自然、恰当的面部表现。这种对“情绪”的建模,更接近于一种“感知和表达”的范式,而非简单的分类。配合海量的视频数据预训练,模型能够将语音、语义与面部表情高度同步,从而在与人类交互时,展现出令人信服的“共情”能力。胡宇航坚信,通过这种算法优势,他们能够有效跨越动态下的恐怖谷,让机器人的表情变得栩栩如生,甚至能让人产生“它受伤我会心疼”的错觉。1
“F人”视角:人形机器人的颠覆性商业逻辑
在机器人行业普遍追求“生产力”和“泛化能力”的背景下,胡宇航和首形科技选择了一条反共识的商业路径。他认为,至少在未来五年内,人形机器人并非高效的生产力工具,而更适合作为提供情绪价值和服务价值的“情绪化产品”。他将这类需求定义为“服务型需求”,而非传统的“工业集群或生产力需求”。1
这一观点源于他对机器人领域深层挑战的洞察。胡宇航指出,当前人形机器人即便在基础任务上也面临挑战,更遑论在物理世界的复杂性中实现广泛的泛化能力。现实世界是一个“混沌的世界”,从仿真环境到真实世界的迁移鸿沟(sim2real gap)是难以逾越的障碍。因此,与其盲目追求生产力的泛化,不如聚焦于商业闭环更易实现的交互场景。
“我觉得物理世界是一个混沌的世界,你要用物理仿真器完成这个子集的收纳是很困难的。而今天的人形机器人连一些基础任务都做不好,在这种情况下,你让他泛化没什么意义。”胡宇航直言,“所以我觉得今天去做生产力的泛化,倒不如先做好交互类的商业化闭环。”1
首形科技的商业化策略因此变得清晰:优先在情绪价值密度高的空间(如线下体验馆、品牌展厅、主题乐园、IP互动空间)打造具备自然表情、实时反应和主动交互能力的类人机器人,快速构建人与机器之间的情感关系。胡宇航规划的终极目标是打造一个沉浸式的“西部世界”,里面的NPC(非玩家角色)全部由机器人扮演。他认为,这种局部约束的场景比进入家庭或工厂更具可操作性,因为工厂机器人已实现规模化,而家庭环境的复杂性对模型要求极高。
胡宇航将他们的目标用户形象地称为“F人”——那些能够理解情绪陪伴在生活中重要性的人。他认为,真正能让人与AI产生情感连接的关键在于,让用户相信“这不是机器”。当用户不再将其视为冰冷的工具或“玩物”,而能产生一种沉浸的体验感时,长期的情感绑定才得以实现。这与当前许多AI陪伴产品仅仅停留在语音助手或纯数字界面形成了鲜明对比,凸显了具备真实面部表情的类人机器人所拥有的“类人共情价值”(Humanoid Empathy Value)。1
AI伴侣的未来:伦理、感知与市场前瞻
胡宇航的路径选择无疑是艰难的。在过去一年里,他拜访了超过一百位投资人,多数人对“人脸机器人”的构想持怀疑态度,担心其潜在的恐怖谷效应,或无法理解情绪陪伴的商业价值。然而,今年5月其新一代产品Demo视频在社交媒体上亿的播放量,以及用户积极的反馈,给了他极大的信心。这表明,大众对于具有情感表现力的机器人,其接受度可能远超投资人的普遍预期。
尽管如此,伦理问题和市场接受度仍是需要持续关注的焦点。当机器人能够提供深层情感陪伴,甚至让用户产生“心疼”的感觉时,人类与机器的界限将变得模糊。这引发了关于机器人伦理、人机关系以及情感依赖等更深层次的社会讨论。胡宇航希望通过循序渐进的方式,让大众逐渐接受“有脸”的机器人。
在商业落地方面,首形科技计划在早期推出消费级、桌面级产品,并逐步扩展到体验馆等大规模场景。同时,他们也为其他人形机器人厂商提供关键的零部件和技术支持。目前,团队人数不到20人,计划在年底扩充至四五十人,并将重点放在亚洲市场,以解决不同人种面部表情差异的问题。1
胡宇航反复强调自己不是一个理想主义者,他的决策基于对市场和技术的清醒认知,以及对商业化落地的坚定信念。他的故事折射出人工智能领域一个深刻的转变:从追求极致的效率和生产力,到探索人类更深层次的情感需求。在未来,当机器人不再仅仅是工具,而能成为我们生活中具有共情能力的伴侣时,人类与科技的关系将迎来一次根本性的重塑。这场“西部世界”前传,或许只是序章的开始。