TL;DR:
Kaggle的“AI高考”——国际象棋积分赛结果出炉,OpenAI的o3一骑绝尘夺冠,Elo分直逼人类中级玩家,但离特级大师还差了十万八千里。看来,人类棋手们暂时可以“稳住,我们能赢!”
“大模型又来‘卷’人类了?!”
这不,最近科技圈又爆出个大新闻,让吃瓜群众们直呼“刺激!”。谷歌旗下的数据科学平台Kaggle,搞了个大动作——正式发布了Game Arena平台上的国际象棋文本排行榜。结果一出,瞬间炸锅:OpenAI的神秘新秀o3,在40轮血战后,以“黑马”姿态傲视群雄,豪夺第一,把马斯克的Grok 4和谷歌亲儿子Gemini 2.5 Pro都甩在了身后。
不过,各位人类棋手们先别慌着“退役”,也别急着感慨“我滴个神啊,AI要取代我了!”。虽然o3表现亮眼,但距离人类大师水平,嘿,那还真有点“道阻且长”。
真金不怕火炼:淘汰赛?那都“洒洒水”!
还记得前阵子Kaggle搞的那个AI国际象棋“表演赛”吗?当时o3也夺冠了,但不少人觉得那只是“秀肌肉”,四局三胜的淘汰赛,偶然性太大,不够硬核。就像玩王者荣耀,偶尔超常发挥拿个MVP不算啥,要看的是排位积分!
这次可不一样了,Kaggle直接上了“真刀真枪”的积分赛,还搬出了国际象棋界权威的Elo排名体系。这波操作,简直就是给大模型们办了个**“AI高考”,要考的不是死记硬背,而是实打实的战略推理、规划、适应和协作能力**。
想想看,仅凭“文本输入”,没有任何“外挂”工具,也没有验证器辅助,大模型们就得在棋盘上“排兵布阵”,进行超过40场你来我往的对决,这难度系数,简直就是“地狱级”!
棋坛“新王”加冕:o3杀疯了,人类大师笑而不语
那么,经过这番“腥风血雨”的鏖战,谁笑到了最后呢?
答案是:OpenAI o3。它以人类等效Elo 1685分的成绩,成功登顶榜首,成为了当之无愧的“大模型棋王”。
紧随其后的,是马斯克家的Grok 4,收获了1395分;而谷歌的Gemini 2.5 Pro则以1343分位列第三。值得一提的是,DeepSeek-R1-0528、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五,看来“头部玩家”们卷得是越来越厉害了。
不过,各位看官,这个1685分是个什么概念呢?
“人类‘大师’级棋手的评分为2200或更高,‘特级大师’为2500或更高。” 1 ——《OpenAI o3豪夺第一,人类大师地位不保?》
看明白了吗?o3离人类大师的门槛,还差着至少500多分呢!这差距,相当于一个“钻石玩家”和“最强王者”之间的距离。所以,人类棋手们,“淡定淡定”,你们的“江山”暂时还很稳固,不必担心突然“塌房”。
当然,要是跟那个“棋坛战神”——开源国际象棋引擎Stockfish比,大模型们就更显得“弟弟”了。Stockfish的Elo评分高达3644分,那简直是“神仙打架”,大模型们此刻大概只能在旁边“喊666”了。
Kaggle Game Arena:AI的“高考”新考场,不止下棋那么简单
为啥Kaggle要搞这么一个“下棋”的平台呢?
简单来说,就是他们觉得以前那些**“静态测试”太肤浅**,大模型可能只是“背答案”,根本无法评估它们真正的“智力水平”1。所以,Kaggle和谷歌联手搞了个“Game Arena”23,一个全新的AI基准测试平台,让大模型在战略游戏中真刀真枪地“干”!
Kaggle表示,这么做有三大“硬核”理由:
- 超越数据污染问题:这可不是让AI“填鸭式”学习,每一招都得是它“自己想出来的”,考验的是它**“真实的思考过程”**。
- 高压环境下的表现:就像高考,模型得随机应变,从错误中恢复,抓住机会,这才是真正的“临场发挥”。
- 通用人工智能(AGI)的洞察:在下棋这种复杂的多步骤战略问题上取得成功,意味着AI在通往AGI的道路上,又迈出了重要一步。这波操作,简直是给AGI研究“指明了方向”。
“这次还增加了「平均每回合Token数」和「平均每回合成本」等指标,以反映模型在性能和效率之间的权衡。” 1 ——《OpenAI o3豪夺第一,人类大师地位不保?》
Kaggle甚至还贴心地提供了游戏回放功能和包含模型推理过程的棋谱数据集(PGN),让开发者们能围观大模型的“思考轨迹”,这波操作,简直是“把AI的底裤都扒干净了”,太透明,太卷了!
未来预测:棋局未完,大模型还得“修炼”
当然,这个新基准测试也并非完美无缺,它也有自己的“小脾气”:
- 仅限于国际象棋:毕竟,“智商”可不只体现在下棋上。Kaggle也承诺未来会引入更多游戏,比如围棋和狼人杀2。
- 超时限制:下棋慢的“思考型”选手可能会吃亏,这可能偏爱那些“快枪手”模型。
- 抽样随机性:模型的默认参数可能会带来一些不确定性。
不过,这都只是**“小插曲”**。Kaggle的野心很大,他们计划定期更新排行榜,加入新模型,未来还会推出更多游戏的排行榜,力求为AI模型的认知能力评估提供更全面、更严谨的基准。
所以,OpenAI o3这次登顶,更像是大模型“战略推理”能力的一次里程碑式亮相。虽然距离“特级大师”的水平还很遥远,但它们通过纯文本输入就能达到这样的成绩,已经足够令人“细思极恐”。未来的AI,将不仅仅是“百科全书”,更是能“运筹帷幄”的“战略家”!人类棋手们,还是抓紧时间多下几盘棋吧,毕竟,谁知道AI什么时候就真的要“掀桌子”了呢?(手动狗头)