TL;DR:
谷歌新战神Aletheia在顶级数学赛FirstProof中“0人工”连杀6题,顺便把OpenAI斩落马下。相比OpenAI还要靠人工挑答案,谷歌这波全自动推理属实是给“AI科学家”打了个样,陶哲轩看了都得点赞!
当你还在为奥数题挠头时,AI界的两大巨头已经卷到了数学的“无人区”。
近日,一场名为FirstProof的数学挑战赛在科技圈炸开了锅。这场由哈佛、斯坦福等名校11位顶级数学家联手布置的“闭卷考试”,号称比IMO(国际数学奥林匹克)还要难上几个Level。结果呢?谷歌派出的数学智能体Aletheia不仅拿下了全场最佳,还顺带让OpenAI体验了一把什么叫“伤害性极大,侮辱性也极强”。
别拿IMO不当竞赛,但FirstProof才是真“修罗场”
以前咱们觉得AI能拿IMO金牌就已经是“天顶星科技”了,但数学家们微微一笑:那都是标准化的竞赛题,AI背背套路也能混个高分。
于是,FirstProof横空出世。这套题集共有10道题,直接扒自数学家们在真实科研中遇到的“心头恨”,甚至包括一些尚未解决的公开问题。最绝的是,这些题目全网无迹可循,答案直到AI考完才公布,彻底杜绝了AI“背答案”作弊的可能。连数学界的大神陶哲轩都亲自转发,直呼这事儿有意思。1
这场比赛本质上不是比谁算得快,而是比谁更像一个真正的独立数学家。
谷歌 vs OpenAI:真·全自动与“带家教”的对决
这场PK的战果非常微妙。OpenAI冲刺了七天,拿下了5道题。听起来不错?但且慢,OpenAI在考试过程中动用了“场外求助”——他们人工协调了模型与ChatGPT之间的交流,甚至在最后交卷时,是由人类挑出了那个“最佳答案”。2
调侃一下: 这就像是两个学生考试,OpenAI虽然成绩不错,但考试时家长(人工)就在旁边帮着翻书、整错别字,最后还得帮着选哪个答案更顺眼。
相比之下,谷歌的Aletheia就表现得像个“孤胆英雄”。基于Gemini 3 Deep Think底层的它,全程0人工干预,从读题、推理到吐出LaTeX格式的答案一气呵成。最终,Aletheia稳稳解出6道题,其中第7题还是个公认的“硬骨头”,是一个此前未解决的公开问题。3
这1分的差距看似微弱,但在“自主性”这个维度上,谷歌显然是把OpenAI给“背刺”了。
技术大揭秘:Aletheia是怎么把数学玩明白的?
Aletheia能赢,靠的可不只是蛮力,而是极其聪明的“算力管理”和“逻辑闭环”。
- 最优二选一(AB测试): Aletheia内部搭载了两个版本的Gemini 3 Deep Think。就像高手下棋会复盘一样,它会让新旧版本互相比对,选出那个最靠谱的思路。
- 懂进退,不硬刚: 面对没解出来的4道题,Aletheia表现出了极高的“AI情商”——它直接拒答。因为内置了智能筛选机制,当它觉得逻辑圆不上时,绝不胡编乱造。4 这种“知之为知之,不知为不知”的严谨,才是搞科研的态度。
- 算力玩出花儿: 遇到超难的第7题,Aletheia会自动开启“狂暴模式”,调集远超常规的算力,通过Generator(生成)和Verifier(校验)两个子Agent反复拉锯。
- 算法神优化: 在处理第10题这种复杂的数值计算时,它没有傻乎乎地生成超大矩阵,而是搞了一套动态生成的黑科技,把计算复杂度从O(n³r³)压缩到了O(qr+n²r)。2
未来预测:AI科学家的时代真的来了?
谷歌DeepMind这波操作,再次向世界证明了:AI已经开始从“模仿人类说话”向“解决人类解决不了的问题”进化。Gemini 3 Deep Think在IMO和FirstProof上的双重胜利,标志着AI for Science正在进入深水区。5
虽然OpenAI这次略显“羞涩”,但别忘了,这只是第一轮交锋。3月中旬,下一轮挑战赛又要来了,难度只会更变态。
我们不禁要问:当AI能独立解开数学家都头秃的猜想时,人类的下一步该往哪儿走?也许,未来的数学家真的只需要负责“提出好问题”,而把那些掉头发的证明过程,全都交给像Aletheia这样的“数学脑机”了。
下一场数学巅峰对决,咱坐等吃瓜!
引用
-
Terence Tao's post on FirstProof · Mathstodon · Terence Tao · 2026/2/26 · 检索日期2026/2/26 ↩︎
-
比IMO还难的数学挑战赛,谷歌赢了OpenAI · 量子位 · 2026/2/26 · 检索日期2026/2/26 ↩︎ ↩︎
-
Google DeepMind AlphaProof and AlphaGeometry results · X · Thang Luong · 2026/2/26 · 检索日期2026/2/26 ↩︎
-
谷歌AI连发6篇数学论文!Gemini攻入博士级科研 · 知乎/新智元 · 2026/2/26 · 检索日期2026/2/26 ↩︎
-
Google Gemini 3 Pro 推出Deep Think 模式!挑戰IMO 金牌 · T客邦 · 2026/2/26 · 检索日期2026/2/26 ↩︎