TL;DR:
谷歌深夜突袭,Gemini 3 Deep Think进化成“地表最强推土机”,编程评分直接杀进全球前十,全球仅7个人类能赢它。这波是清华物理系传奇姚顺宇立大功,不仅能手搓3D模型,还能揪出论文漏洞,OpenAI的奥特曼恐怕又要深夜发推“阴阳怪气”了。
猝不及防,谷歌DeepMind在深夜又整了个大活儿。
今天,Gemini 3 Deep Think重磅升级,几乎以“割草”之势刷爆了全领域的SOTA(当前最佳水平)。这已经不是简单的模型迭代了,而是AI推理能力直接跳进了全新的维度。如果你还在为ChatGPT写错逻辑而苦恼,那这版Gemini可能会让你感受到什么叫“智力溢出”。1
最让技术圈沸腾的是,这场史诗级进化的背后,站着一位华人身影——清华物理系传奇、离职Anthropic转投谷歌的学者姚顺宇。这波操作,被不少网友戏称为姚顺宇给谷歌递交的最强“投名状”。2
编程界的“扫地僧”:全球仅7人能赢它
在编程这个硬核赛道上,Gemini 3 Deep Think简直是开启了“上帝模式”。在权威算法竞赛平台Codeforces上,它刷出了3455 Elo的惊人高分。
这是什么概念?这个分数不仅让它拿下了世界冠军级的水准,更让它直接冲进了人类选手的TOP 10。放眼全球,目前只有7个人类选手的算法能力能压它一头。1 相比之下,一年前被吹上天的最强推理模型o3,也才拿了2727分。这波“降维打击”,确实让不少程序员感觉到了脊背发凉。
除了编程,它在各项“硬试卷”上也表现得像个战神:
- ARC-AGI-2(人类通用智能基准): 拿下84.6%的高分,直接让这个高难度基准趋于饱和。
- HLE(人类最后考试): 在不求助任何工具的情况下,准确率达48.4%,刷新人类认知上限。
- 2025 IMO(国际数学奥林匹克): 达到金牌水平,简直是把奥数冠军的奖牌揣进了兜里。13
甚至在高级理论物理领域,它在CMT-Benchmark测试中也拿到了50.5%的成绩。可以说,现在的Gemini已经从只会说漂亮话的“文科生”,进化成了手握多项金牌的“理科全才”。
科研“外挂”:连人类审稿人都漏掉的Bug,它能揪出来
如果说刷榜只是实验室里的狂欢,那实战表现才真的叫“离大谱”。
罗格斯大学的数学家Lisa Carbone在研究时,让Deep Think审查一篇极其深奥的物理数学论文。结果,这AI不仅看懂了,还当场指出了一个连人类专业同行评审都忽略的细微逻辑漏洞。1 当AI开始教人类怎么审稿,这届科学家的工作流可能真的要被重塑了。
在工程领域,它也展现出了惊人的“动手能力”。谷歌VP晒出的视频显示,Deep Think可以根据一张草图,自动分析绘图、建模,并生成3D打印所需的模型文件,直接渲染出一个实用的3D笔记本支架。
正如谷歌研发主管Anupam Pathak所言:“我不是CAD设计师,但有了Deep Think,物理零部件建模加速了十倍。”1
网友实测:物理模拟、SVG绘图,简直“杀疯了”
在社交媒体上,各路大神已经玩坏了。实测显示,Gemini 3 Deep Think拥有极强的物理模拟能力,甚至能直接在浏览器里模拟光线追踪。
开发者Simon Willison尝试让它生成一张“加州褐鹈鹕骑自行车”的SVG矢量图。在面对“要有辐条、车架准确、标志性喉囊、清晰羽毛细节、且正在蹬车”等一堆极其苛刻的要求时,Deep Think给出的成图效果惊艳了全网。Simon直言:“这是我见过最棒的一版。”1
现在的局势很明朗了:谷歌通过Gemini 3 Deep Think,把AI的应用触角伸向了科研工作的“最后一公里”——从审阅论文到工业设计,再到实验优化。
当AI不再只是一个聊天机器人,而是一个能参与证明“Erdős猜想”、推翻十年技术瓶颈的“AI数学家”时1,压力球已经稳稳地回到了OpenAI的手里。面对谷歌这记直击痛点的重拳,不知道奥特曼的库房里,还有没有足够震撼的王牌?
引用
-
清华传奇姚顺宇立功!全新Gemini一夜血洗编程,全球仅7人能赢它·凤凰网科技·新智元(2026/2/13)·检索日期2026/2/13 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与·新浪财经(2026/2/13)·检索日期2026/2/13 ↩︎
-
Gemini 3 — Google DeepMind·Google DeepMind(2026/2/13)·检索日期2026/2/13 ↩︎