谷歌Aletheia：考试不带“家教”也能赢，OpenAI这次被“数学”背刺了？

TL;DR：

谷歌新战神Aletheia在顶级数学赛FirstProof中“0人工”连杀6题，顺便把OpenAI斩落马下。相比OpenAI还要靠人工挑答案，谷歌这波全自动推理属实是给“AI科学家”打了个样，陶哲轩看了都得点赞！

当你还在为奥数题挠头时，AI界的两大巨头已经卷到了数学的“无人区”。

近日，一场名为FirstProof的数学挑战赛在科技圈炸开了锅。这场由哈佛、斯坦福等名校11位顶级数学家联手布置的“闭卷考试”，号称比IMO（国际数学奥林匹克）还要难上几个Level。结果呢？谷歌派出的数学智能体Aletheia不仅拿下了全场最佳，还顺带让OpenAI体验了一把什么叫“伤害性极大，侮辱性也极强”。

别拿IMO不当竞赛，但FirstProof才是真“修罗场”

以前咱们觉得AI能拿IMO金牌就已经是“天顶星科技”了，但数学家们微微一笑：那都是标准化的竞赛题，AI背背套路也能混个高分。

于是，FirstProof横空出世。这套题集共有10道题，直接扒自数学家们在真实科研中遇到的“心头恨”，甚至包括一些尚未解决的公开问题。最绝的是，这些题目全网无迹可循，答案直到AI考完才公布，彻底杜绝了AI“背答案”作弊的可能。连数学界的大神陶哲轩都亲自转发，直呼这事儿有意思。¹

这场比赛本质上不是比谁算得快，而是比谁更像一个真正的独立数学家。

谷歌 vs OpenAI：真·全自动与“带家教”的对决

这场PK的战果非常微妙。OpenAI冲刺了七天，拿下了5道题。听起来不错？但且慢，OpenAI在考试过程中动用了“场外求助”——他们人工协调了模型与ChatGPT之间的交流，甚至在最后交卷时，是由人类挑出了那个“最佳答案”。²

调侃一下： 这就像是两个学生考试，OpenAI虽然成绩不错，但考试时家长（人工）就在旁边帮着翻书、整错别字，最后还得帮着选哪个答案更顺眼。

相比之下，谷歌的Aletheia就表现得像个“孤胆英雄”。基于Gemini 3 Deep Think底层的它，全程0人工干预，从读题、推理到吐出LaTeX格式的答案一气呵成。最终，Aletheia稳稳解出6道题，其中第7题还是个公认的“硬骨头”，是一个此前未解决的公开问题。³

这1分的差距看似微弱，但在“自主性”这个维度上，谷歌显然是把OpenAI给“背刺”了。

技术大揭秘：Aletheia是怎么把数学玩明白的？

Aletheia能赢，靠的可不只是蛮力，而是极其聪明的“算力管理”和“逻辑闭环”。

最优二选一（AB测试）： Aletheia内部搭载了两个版本的Gemini 3 Deep Think。就像高手下棋会复盘一样，它会让新旧版本互相比对，选出那个最靠谱的思路。
懂进退，不硬刚： 面对没解出来的4道题，Aletheia表现出了极高的“AI情商”——它直接拒答。因为内置了智能筛选机制，当它觉得逻辑圆不上时，绝不胡编乱造。⁴ 这种“知之为知之，不知为不知”的严谨，才是搞科研的态度。
算力玩出花儿： 遇到超难的第7题，Aletheia会自动开启“狂暴模式”，调集远超常规的算力，通过Generator（生成）和Verifier（校验）两个子Agent反复拉锯。
算法神优化： 在处理第10题这种复杂的数值计算时，它没有傻乎乎地生成超大矩阵，而是搞了一套动态生成的黑科技，把计算复杂度从O(n³r³)压缩到了O(qr+n²r)。²

未来预测：AI科学家的时代真的来了？

谷歌DeepMind这波操作，再次向世界证明了：AI已经开始从“模仿人类说话”向“解决人类解决不了的问题”进化。Gemini 3 Deep Think在IMO和FirstProof上的双重胜利，标志着AI for Science正在进入深水区。⁵

虽然OpenAI这次略显“羞涩”，但别忘了，这只是第一轮交锋。3月中旬，下一轮挑战赛又要来了，难度只会更变态。

我们不禁要问：当AI能独立解开数学家都头秃的猜想时，人类的下一步该往哪儿走？也许，未来的数学家真的只需要负责“提出好问题”，而把那些掉头发的证明过程，全都交给像Aletheia这样的“数学脑机”了。

下一场数学巅峰对决，咱坐等吃瓜！

引用

Terence Tao's post on FirstProof · Mathstodon · Terence Tao · 2026/2/26 · 检索日期2026/2/26 ↩︎
比IMO还难的数学挑战赛，谷歌赢了OpenAI · 量子位 · 2026/2/26 · 检索日期2026/2/26 ↩︎ ↩︎
Google DeepMind AlphaProof and AlphaGeometry results · X · Thang Luong · 2026/2/26 · 检索日期2026/2/26 ↩︎
谷歌AI连发6篇数学论文！Gemini攻入博士级科研 · 知乎/新智元 · 2026/2/26 · 检索日期2026/2/26 ↩︎
Google Gemini 3 Pro 推出Deep Think 模式！挑戰IMO 金牌 · T客邦 · 2026/2/26 · 检索日期2026/2/26 ↩︎