老黄刚发一天的Cosmos 3，被中国公司闪电反超？这剧本谁写的！

TL;DR：

老黄（黄仁勋）在GTC上刚吹完“全球首个全能开放模型”Cosmos 3，结果一天后就被中国公司千寻智能的Spirit v1.6在RoboArena榜单上反超了。这不是简单的“跑分”，而是真机实战——机器人要在真实世界里打开笔记本、抓卡皮巴拉玩偶。这波操作，相当于在自己的主场被客场选手干翻了，而且千寻智能三个月还融了近50亿，资本的眼睛是雪亮的。

一天就翻盘？这波操作有点猛

6月1日，黄仁勋在GTC上用了不小的篇幅讲物理AI和具身智能，重磅发布了Cosmos 3。他自豪地宣布，这是全球首个完全开放的全能模型，在各大榜单上位列开放模型第一[^1]。老黄的笑容还没收回去，仅过了一天，RoboArena榜单更新——中国公司千寻智能的Spirit v1.6直接登顶，把Cosmos 3挤到了第二[^2]。

“客场”作战、被硅谷巨头和伯克利、斯坦福等高校联手主导的评测体系反超，这感觉就像你刚在朋友圈晒了新车，结果邻居开着一辆配置更高的车路过你家门口。千寻智能成了第一个在这个“真机对抗”评测里拿第一的中国企业[^3]。要知道，RoboArena可不是那种“喂数据就能刷分”的benchmark，它是把机器人直接扔进真实世界，当着评委的面完成一堆刁钻任务。

为什么这个榜单比“跑分”硬核多了？

RoboArena本质上就是具身智能界的“世界拳击锦标赛”。它由UC Berkeley、Stanford、NVIDIA等共同发起，相关论文还入选了CoRL 2025 Oral[^1]。它的机制很“鸡贼”：分布式协作、双盲对决、Elo动态排名、开放评测网络。简单说，就是让机器人在不同地方、不同环境下对打，而且评委不知道谁是谁，完全看真本事。

以前的很多评测，机器人在模拟器里跑分漂亮，一到真实世界就“社死”——抓不住杯子、判断错方向、走路像脑血栓。而RoboArena直接掐灭了这个bug：所有任务都在真实环境中执行，失败就是失败，没有重来。这就好比考试从闭卷变成了开卷，但书本是随机乱码——真本事才能活下来。

那么Spirit v1.6到底赢在哪里？我们看了两组双盲对比视频：打开笔记本和把卡皮巴拉玩偶放到盘子里。Cosmos 3在打开笔记本时几乎没有形成有效尝试，而Spirit v1.6动作衔接自然，快速完成[^3]；在抓卡皮巴拉时，pi 0.5没识别出目标，而Spirit v1.6虽然有一次小调整，但整体动作链条连贯，最终成功放置[^2]。说白了，千寻的机器人不仅“看得见”，还能“想得到，做得到”，把“看见→判断→抓取→放置”这套操作跑通了。

千寻智能的“数据金字塔”是啥？真实世界才是隐藏BOSS

黄仁勋在GTC上反复强调一个痛点：物理AI的数据太难获得了。互联网视频大多是第三人称视角，机器人需要的是第一人称、可行动、可反馈的数据——相当于你要学会游泳，不能只看游泳教学片，得自己下水扑腾。Cosmos 3试图通过Omniverse、遥操作等合成数据缓解稀缺，但千寻智能选择了一条更“笨”但更实的方法：自研7代轻量化可穿戴数采设备，在全国100多个城市搭建分布式数据采集网络，计划2026年内沉淀百万小时级真实世界交互数据[^3]。

这套体系被形象地称为“数据金字塔”：底层是海量真实交互数据（理解杂乱、遮挡、不规则）；中间层是数据工程能力（清洗、标注、复盘，尤其是失败数据——机器人抓空了反而比成功更有价值）；最上层是模型能力和任务泛化[^2]。千寻团队还观察到，具身智能领域出现了类似Scaling Law的曲线：数据规模每升一个数量级，任务成功率就可能向更高稳定性迈进一步。

资本显然读懂了这层逻辑。在三个月内，千寻智能连续完成四轮融资，累计接近50亿元人民币，A+轮就融了15亿[^1]。这笔钱将投向新一代具身基座模型、全球化数据基建和行业落地。它已经和博世、京东、宁德时代等合作，在工业、零售、高端制造场景里跑起来了——咖啡师机器人、产线装配、仓储搬运，都不是PPT demo，而是真实上岗[^3]。

真正的胜负手不在发布会，而在每一个真实世界的数据采集点。

物理AI的故事才刚刚开始。从RoboChallenge到RoboArena，从v1.5到v1.6，千寻智能的连续表现说明：具身智能正在从实验室“炫技”转向真实世界的“打工人”验证。谁能更快建立数据闭环，谁能更稳定地把场景反馈转化为模型进步，谁就能在下一阶段站着把钱挣了。老黄，你是不是也得赶紧加个速？