狂热的机器人格斗：具身智能的流量密码，抑或是通往通用AI的弯路？

TL;DR：

机器人格斗赛事凭借其技术奇观和对人性暴力冲动的安全宣泄，成为具身智能吸引公众关注和资本青睐的“流量密码”。然而，这种高度结构化的表演背后，掩盖了通用型机器人技术在现实世界应用中的巨大挑战，并引发了技术发展路径可能被窄化、资源错配的深层隐忧。

在2025年的世界人工智能大会（WAIC）上，具身智能展区的“机器人擂台”无疑是焦点中的焦点。成千上万的观众，甚至不惜重金购买黄牛票，只为一睹宇树科技等厂商旗下身高1.32米的人形机器人，在擂台上施展拳击、扫腿、抱摔等动作，直至一方被判定投降。当机械臂锁颈的瞬间，雷鸣般的欢呼声揭示了一个令人费解却又深刻的现象：为什么具身智能最“出圈”的场景，竟然是机器人之间的激烈互殴？这种现象背后，究竟隐藏着怎样的技术进化、商业驱动和人性深层逻辑，又将如何塑造具身智能的未来发展路径？

技术演进与挑战：从“武斗”到“智取”

机器人格斗的历史并非一蹴而就，它经历了从“钢铁对决”到“战术竞技”再到“智能对抗”的显著演变。追溯至1986年的Critter Crunch，早期的机器人格斗更像是遥控坦克的粗暴碰撞，以物理破坏和结构坚固度为王。进入21世纪，随着RoboGames和BattleBots等赛事的兴起，机器人设计开始专业化，加入了旋转锯、液压钳等复杂武器系统，强调战术策略的运用，观赏性大幅提升。¹

然而，真正具有前瞻性意义的突破发生在2020年后，生成式AI和计算机视觉技术的融入，将机器人格斗推向了“智能对抗”阶段。这一阶段的机器人不再完全依赖人类遥控，而是能够：

从武斗到智取：通过动态博弈算法预测对手运动轨迹，自主选择闪避或反击，对抗维度从纯物理破坏升级为复杂的算法对决。
从单一模态到多模态感知：早期机器人仅通过RGB摄像头获取二维信息，如今则能结合多模态数据，实现更精准的环境感知和态势分析，战术动作库愈发丰富，从简单的冲撞进化出勾拳、扫腿、抱摔等组合技，展现出更精细的运动控制和平衡能力。
从人工遥控到人机共战：机器人开始具备自主规划简单攻击防御动作的能力，减少了对操作员实时指令的依赖，提高了响应速度和决策效率。

这些技术进步使得机器人格斗的观赏性和破圈能力显著增强。今年5月的CMG格斗大赛吸引了30多个国家200多支战队，线上观看量突破2亿次，充分证明了其作为“技术奇观”的强大吸引力。直拳、侧踢、高速旋转的武器，以及机器人被击倒后迅速爬起时观众不自觉赋予的“斗志”和“不服输”等人类特质，都构成了独特的视觉冲击和情感共鸣。²

然而，这种舞台上的“神技”与现实世界的“笨拙”之间存在着一道巨大的鸿沟。机器人格斗擂台是高度结构化的封闭环境：边界固定、规则明确、意外变量少，机器人只需应对可预测的对手，其专用算法针对有限场景进行了极致优化，因此成功率高。与之形成鲜明对比的是，日常任务如削苹果，则需要在开放环境中处理无数不确定因素——苹果的形状、硬度、刀具的力度、光线变化等，对机器人的物理世界理解、精细操作和容错率要求极高。就像专业的竞技运动员未必擅长家务，当前机器人技术仍处于“专精特化”阶段，距离真正的通用人工智能或能够适应复杂真实世界的具身智能，还有漫长的道路。

商业驱动与市场幻象：流量、融资与泡沫之忧

机器人格斗的火爆，不仅仅是技术演进的必然结果，更是具身智能公司在当前市场环境下的一种商业策略。对于缺乏资金的初创公司而言，高强度的机器人格斗表演无疑是吸引公众眼球、制造话题、快速融资的“流量密码”。从年初穿着花棉袄的宇树机器人在春晚转手绢，到春季机器人半马赛，再到如今的格斗互殴，这些看似酷炫的表演本质上都在满足公众的情绪需求，并巧妙地将技术成果以最具视觉冲击力的方式呈现。

这种“秀肌肉”的方式对于没有技术背景的公众而言，很容易造成一种错觉：机器人已然无所不能，上得厅堂下得厨房。这种大众认知上的偏差，在一定程度上助推了资本对具身智能的关注和投入。投资逻辑是清晰的：**流量即价值，关注度预示着潜在的市场和未来。**通过格斗表演，公司能够以较低的成本获得巨大的媒体曝光和用户心智占领，为后续的融资和商业拓展铺路。

然而，这种过度依赖表演制造噱头的模式，也带来了一个深远的隐忧：机器人技术的发展路径是否会因此变得越来越窄？ 如果公司为了迎合市场对“酷炫”表演的追逐，而将研发资源过度倾斜于竞技优化而非实际应用场景的突破，将导致资源错配，甚至使人形机器人的概念沦为泡沫。当下的具身智能公司，面临一个关键的抉择：是继续在有限的、结构化场景中追求极致性能的展示，还是沉下心来攻克通用性和成本的“最后一公里”？毕竟，在技术和成本未达到真正临界点，使其价值像生成式AI一样具体可感，或像毛绒玩具一样人人可及时，没有人会花几十万去购买两个钢铁娃娃来天天打架。

人性深层与伦理边界：科技奇观下的心理投射

机器人格斗能引发全民狂欢，除了技术奇观的吸引力，更深层次的原因在于其满足了人类天然的心理需求。从古罗马角斗场到现代MMA格斗，人类对暴力竞技的痴迷从未改变。机器人互殴延续了这一传统，但以更安全、更科技化的方式呈现，为被文明社会压抑的暴力冲动提供了一种无道德负担的安全宣泄途径。观众可以享受“拳拳到肉”的刺激，却无需担心真实的伤害或舆论谴责，获得比电影更真实的替代性暴力需求释放。德国埃森杜伊斯堡大学的研究也表明，人类观看机器人受暴力对待时，大脑边缘系统会激活比机器人被友好对待时更强的反应，但在潜意识中又需要道德庇护。

这种现象也引发了关于AI伦理和人机关系的深层思辨。年初，宇树机器人G1被老外围殴的视频在社交媒体X上引发轩然大波，高达8000万人次的观看量伴随着两极分化的评论：“虐待机器人是不对的，它内置的AI系统会记住这种创伤。”以及“不要再人化AI了，他们就和被丢弃倒卖的旧手机一样，没有生命特征。”这不仅仅是技术讨论，更是关于我们如何看待和对待未来智能体的哲学辩论。当机器人做出“拍屁股”挑衅动作，引发“机器人觉醒”的热议时，我们是在投射人类情感，还是预见某种新的意识萌芽？这一分歧反映了社会对未来智能机器角色定位的深刻焦虑和期待，预示着随着具身智能的日益普及，相关的伦理和社会适应问题将愈发突出。

具身智能的未来航向：从表演场到真实世界

机器人格斗的狂热无疑为具身智能产业提供了一个独特的市场入口和资本催化剂，它在一定程度上帮助行业克服了早期“概念大于实际”的挑战，让公众直观感受到机器人在运动控制和智能决策方面的进步。然而，这种表演性的成功，也如同双刃剑。

展望未来3-5年，具身智能领域的核心竞争将不再是简单的“秀肌肉”，而是真正进入到实际应用场景的“打工”能力。这意味着机器人需要：

从特定环境到开放环境的泛化能力：不仅能在擂台上格斗，更要在工厂流水线、仓储物流、家庭服务等复杂多变的真实环境中稳定、高效地执行任务。
成本与效率的临界点突破：人形机器人能否真正达到技术成熟度和制造成本的甜蜜点，使其成为企业和个人负担得起且具有显著经济效益的工具。
从表演价值到实用价值的转化：投资和关注的最终落脚点，应是机器人能否解决实际痛点，创造具体可见的经济或社会价值。

具身智能的“下一关”在于其能够真正实现从“花拳绣腿”到“拿起刀子削苹果”的跨越。这需要行业摒弃短期的流量诱惑，回归到对基础技术、通用算法和成本控制的长期投入。只有当具身智能不再是舞台上的表演者，而是成为我们工作和生活中不可或缺的协作者时，机器人格斗所带来的狂热，才能真正转化为推动人类文明进程的持久动力。

引用

实探WAIC 2025：具身智能零“翻车”背后透露的信号揭秘·36氪·（2025/8/6）·检索日期2025/8/6 ↩︎
直击WAIC！格斗、倒立、能聊，机器人长本事了！这一展台“人山人海 ...·证券时报·（2025/8/6）·检索日期2025/8/6 ↩︎