老黄刚发一天的Cosmos 3,被中国公司闪电反超?这剧本谁写的!

温故智新AIGC实验室

TL;DR:

老黄(黄仁勋)在GTC上刚吹完“全球首个全能开放模型”Cosmos 3,结果一天后就被中国公司千寻智能的Spirit v1.6在RoboArena榜单上反超了。这不是简单的“跑分”,而是真机实战——机器人要在真实世界里打开笔记本、抓卡皮巴拉玩偶。这波操作,相当于在自己的主场被客场选手干翻了,而且千寻智能三个月还融了近50亿,资本的眼睛是雪亮的。


一天就翻盘?这波操作有点猛

6月1日,黄仁勋在GTC上用了不小的篇幅讲物理AI和具身智能,重磅发布了Cosmos 3。他自豪地宣布,这是全球首个完全开放的全能模型,在各大榜单上位列开放模型第一[^1]。老黄的笑容还没收回去,仅过了一天,RoboArena榜单更新——中国公司千寻智能的Spirit v1.6直接登顶,把Cosmos 3挤到了第二[^2]。

“客场”作战、被硅谷巨头和伯克利、斯坦福等高校联手主导的评测体系反超,这感觉就像你刚在朋友圈晒了新车,结果邻居开着一辆配置更高的车路过你家门口。千寻智能成了第一个在这个“真机对抗”评测里拿第一的中国企业[^3]。要知道,RoboArena可不是那种“喂数据就能刷分”的benchmark,它是把机器人直接扔进真实世界,当着评委的面完成一堆刁钻任务。

为什么这个榜单比“跑分”硬核多了?

RoboArena本质上就是具身智能界的“世界拳击锦标赛”。它由UC Berkeley、Stanford、NVIDIA等共同发起,相关论文还入选了CoRL 2025 Oral[^1]。它的机制很“鸡贼”:分布式协作、双盲对决、Elo动态排名、开放评测网络。简单说,就是让机器人在不同地方、不同环境下对打,而且评委不知道谁是谁,完全看真本事。

以前的很多评测,机器人在模拟器里跑分漂亮,一到真实世界就“社死”——抓不住杯子、判断错方向、走路像脑血栓。而RoboArena直接掐灭了这个bug:所有任务都在真实环境中执行,失败就是失败,没有重来。这就好比考试从闭卷变成了开卷,但书本是随机乱码——真本事才能活下来。

那么Spirit v1.6到底赢在哪里?我们看了两组双盲对比视频:打开笔记本和把卡皮巴拉玩偶放到盘子里。Cosmos 3在打开笔记本时几乎没有形成有效尝试,而Spirit v1.6动作衔接自然,快速完成[^3];在抓卡皮巴拉时,pi 0.5没识别出目标,而Spirit v1.6虽然有一次小调整,但整体动作链条连贯,最终成功放置[^2]。说白了,千寻的机器人不仅“看得见”,还能“想得到,做得到”,把“看见→判断→抓取→放置”这套操作跑通了。

千寻智能的“数据金字塔”是啥?真实世界才是隐藏BOSS

黄仁勋在GTC上反复强调一个痛点:物理AI的数据太难获得了。互联网视频大多是第三人称视角,机器人需要的是第一人称、可行动、可反馈的数据——相当于你要学会游泳,不能只看游泳教学片,得自己下水扑腾。Cosmos 3试图通过Omniverse、遥操作等合成数据缓解稀缺,但千寻智能选择了一条更“笨”但更实的方法:自研7代轻量化可穿戴数采设备,在全国100多个城市搭建分布式数据采集网络,计划2026年内沉淀百万小时级真实世界交互数据[^3]。

这套体系被形象地称为“数据金字塔”:底层是海量真实交互数据(理解杂乱、遮挡、不规则);中间层是数据工程能力(清洗、标注、复盘,尤其是失败数据——机器人抓空了反而比成功更有价值);最上层是模型能力和任务泛化[^2]。千寻团队还观察到,具身智能领域出现了类似Scaling Law的曲线:数据规模每升一个数量级,任务成功率就可能向更高稳定性迈进一步。

资本显然读懂了这层逻辑。在三个月内,千寻智能连续完成四轮融资,累计接近50亿元人民币,A+轮就融了15亿[^1]。这笔钱将投向新一代具身基座模型、全球化数据基建和行业落地。它已经和博世、京东、宁德时代等合作,在工业、零售、高端制造场景里跑起来了——咖啡师机器人、产线装配、仓储搬运,都不是PPT demo,而是真实上岗[^3]。

真正的胜负手不在发布会,而在每一个真实世界的数据采集点。

物理AI的故事才刚刚开始。从RoboChallenge到RoboArena,从v1.5到v1.6,千寻智能的连续表现说明:具身智能正在从实验室“炫技”转向真实世界的“打工人”验证。谁能更快建立数据闭环,谁能更稳定地把场景反馈转化为模型进步,谁就能在下一阶段站着把钱挣了。老黄,你是不是也得赶紧加个速?