谷歌 Gemini 3 杀疯了：编程全地球仅 7 人能敌，这“硅基扫地僧”还要把价格打成白菜？

TL;DR：

谷歌发布 Gemini 3 Deep Think 史诗级升级，编程水平直逼人类天花板，全世界仅剩 7 个程序员能稳赢它。更扎心的是，它不仅脑细胞比你多，还比竞品便宜几百倍，直接把“高端推理”打成了“路边摊价格”。

北京时间周五凌晨，谷歌实验室传出一阵“哀嚎”——当然，那是竞争对手的心碎声。备受瞩目的 Gemini 3 Deep Think 正式迎来重大升级。从此以后，AI 恐怕不能再单纯被视为搬砖工具了，建议大家在提问前先打声招呼：“尊贵的硅基博学家，帮我写个代码？”¹

这次升级的核心，是一个专门针对复杂任务设计的“推理模式”。它不只会像聊天机器人那样插科打诨，而是能真正像人类科学家一样，在科学、工程等深水区进行高强度的逻辑冲浪。

编程界的“扫地僧”：全地球只有 7 人能稳赢？

如果说之前的 AI 编程是“Ctrl+C 加 Ctrl+V”的缝合怪，那 Gemini 3 Deep Think 就是代码界的奥沙利文。在竞技编程平台 Codeforces 上，它刷出了惊人的 3455 Elo 分数。这是什么概念？

简单来说，这已经相当于世界排名第八的顶级竞技程序员水平。之前的纪录保持者是 OpenAI 的 o3，分数为 2727，排名还在 170 开外。¹²

换句话说，放眼全地球，在编程比赛里能稳赢这个模型的活人，目前只剩下 7 个了。看到这个数据，不少程序员可能已经开始默默搜索“如何零基础转行摊煎饼”了。更值得一提的是，这次升级背后还有华人之光的身影——去年 9 月刚加入 Google DeepMind 的清华物理系传奇 姚顺宇（Shunyu Yao） 也是核心参与者。¹

成本“屠夫”：脑子更灵光，钱包更安详

很多时候，强悍的推理能力往往意味着烧钱。比如隔壁 OpenAI 模型 o3-preview 的“高计算”版本，在 ARC-AGI-1 测试中为了拿高分，每个任务的成本能烧掉 2000 到 3000 美元。

但谷歌这次直接把桌子掀了。Gemini 3 Deep Think 在同样的测试中，每任务成本仅为 7.17 美元，成本降低了约 280 至 420 倍。¹

这就好比大家都在研发跑车，别人家的一脚油门下去要烧掉一套房，谷歌家的一脚油门下去只要一碗兰州拉面钱。这种降维打击，直接让“推理民主化”从口号变成了现实。在被称为“人类最后考试”的 HLE 基准测试中，它在不借用任何外力工具的情况下，拿下了 48.4% 的新高度，妥妥的 SOTA（业内最强）。³

搞科研，它是认真的：从 3D 打印到物理神谕

如果说刷题只是为了证明智商，那解决现实问题就是为了展现力量。Gemini 3 Deep Think 已经开始在高校实验室里当“高级外挂”了：

抓漏神探：罗格斯大学的数学家利用它审阅极其晦涩的高能物理论文，结果 Deep Think 一眼看穿了一个人工同行评审都没发现的逻辑缺陷。¹
材料大师：在杜克大学，它协助优化了复杂晶体的制备工艺，设计出了此前难以企及的精确半导体材料薄膜。¹
跨界达人：你给它一张手绘草图，它能分析建模并直接吐出可以用于 3D 打印的实体文件。

目前，这款“脑力怪兽”已经对 Google AI Ultra 订阅用户开放。虽然它仍处于深度测试阶段，但正如谷歌副总裁所言，我们现在可能真的需要为 AI 准备更难的题库了，因为老题库显然已经不够它塞牙缝了。²⁴

引用

Gemini models: Gemini 3 Deep Think · Google Blog · Google (2026/02/13) · 检索日期2026/02/13 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
一文读懂谷歌Gemini 3 DeepThink，一骑绝尘 · 腾讯云开发者社区 (2026/02/13) · 检索日期2026/02/13 ↩︎ ↩︎
谷歌Gemini3 DeepThink 发布！“并行思考“能力碾压基准测试 · CSDN (2026/02/13) · 检索日期2026/02/13 ↩︎
Gemini 3 Deep Think正式登場! 主打深度邏輯推演搶攻高階推理市場 · MSN (2026/02/13) · 检索日期2026/02/13 ↩︎