谷歌 Gemini 3 杀疯了:编程全地球仅 7 人能敌,这“硅基扫地僧”还要把价格打成白菜?

温故智新AIGC实验室

TL;DR:

谷歌发布 Gemini 3 Deep Think 史诗级升级,编程水平直逼人类天花板,全世界仅剩 7 个程序员能稳赢它。更扎心的是,它不仅脑细胞比你多,还比竞品便宜几百倍,直接把“高端推理”打成了“路边摊价格”。

北京时间周五凌晨,谷歌实验室传出一阵“哀嚎”——当然,那是竞争对手的心碎声。备受瞩目的 Gemini 3 Deep Think 正式迎来重大升级。从此以后,AI 恐怕不能再单纯被视为搬砖工具了,建议大家在提问前先打声招呼:“尊贵的硅基博学家,帮我写个代码?”1

这次升级的核心,是一个专门针对复杂任务设计的“推理模式”。它不只会像聊天机器人那样插科打诨,而是能真正像人类科学家一样,在科学、工程等深水区进行高强度的逻辑冲浪。

编程界的“扫地僧”:全地球只有 7 人能稳赢?

如果说之前的 AI 编程是“Ctrl+C 加 Ctrl+V”的缝合怪,那 Gemini 3 Deep Think 就是代码界的奥沙利文。在竞技编程平台 Codeforces 上,它刷出了惊人的 3455 Elo 分数。这是什么概念?

简单来说,这已经相当于世界排名第八的顶级竞技程序员水平。之前的纪录保持者是 OpenAI 的 o3,分数为 2727,排名还在 170 开外。12

换句话说,放眼全地球,在编程比赛里能稳赢这个模型的活人,目前只剩下 7 个了。看到这个数据,不少程序员可能已经开始默默搜索“如何零基础转行摊煎饼”了。更值得一提的是,这次升级背后还有华人之光的身影——去年 9 月刚加入 Google DeepMind 的清华物理系传奇 姚顺宇(Shunyu Yao) 也是核心参与者。1

成本“屠夫”:脑子更灵光,钱包更安详

很多时候,强悍的推理能力往往意味着烧钱。比如隔壁 OpenAI 模型 o3-preview 的“高计算”版本,在 ARC-AGI-1 测试中为了拿高分,每个任务的成本能烧掉 2000 到 3000 美元。

但谷歌这次直接把桌子掀了。Gemini 3 Deep Think 在同样的测试中,每任务成本仅为 7.17 美元,成本降低了约 280 至 420 倍1

这就好比大家都在研发跑车,别人家的一脚油门下去要烧掉一套房,谷歌家的一脚油门下去只要一碗兰州拉面钱。这种降维打击,直接让“推理民主化”从口号变成了现实。在被称为“人类最后考试”的 HLE 基准测试中,它在不借用任何外力工具的情况下,拿下了 48.4% 的新高度,妥妥的 SOTA(业内最强)。3

搞科研,它是认真的:从 3D 打印到物理神谕

如果说刷题只是为了证明智商,那解决现实问题就是为了展现力量。Gemini 3 Deep Think 已经开始在高校实验室里当“高级外挂”了:

  • 抓漏神探:罗格斯大学的数学家利用它审阅极其晦涩的高能物理论文,结果 Deep Think 一眼看穿了一个人工同行评审都没发现的逻辑缺陷。1
  • 材料大师:在杜克大学,它协助优化了复杂晶体的制备工艺,设计出了此前难以企及的精确半导体材料薄膜。1
  • 跨界达人:你给它一张手绘草图,它能分析建模并直接吐出可以用于 3D 打印的实体文件。

目前,这款“脑力怪兽”已经对 Google AI Ultra 订阅用户开放。虽然它仍处于深度测试阶段,但正如谷歌副总裁所言,我们现在可能真的需要为 AI 准备更难的题库了,因为老题库显然已经不够它塞牙缝了。24

引用


  1. Gemini models: Gemini 3 Deep Think · Google Blog · Google (2026/02/13) · 检索日期2026/02/13 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 一文读懂谷歌Gemini 3 DeepThink,一骑绝尘 · 腾讯云开发者社区 (2026/02/13) · 检索日期2026/02/13 ↩︎ ↩︎

  3. 谷歌Gemini3 DeepThink 发布!“并行思考“能力碾压基准测试 · CSDN (2026/02/13) · 检索日期2026/02/13 ↩︎

  4. Gemini 3 Deep Think正式登場! 主打深度邏輯推演搶攻高階推理市場 · MSN (2026/02/13) · 检索日期2026/02/13 ↩︎