TL;DR
陶哲轩主导的First Proof项目第二次评测火辣出炉——10道从未公开的研究级数学难题,AI解出了7道达到发表标准。最低8美元就能让AI帮你“写论文”,最贵的方案花了近5000美元却没能突破能力天花板。更刺激的是,AI还整出了人类没见过的原创解法,数学界直呼“这波我服”。
又到了AI数学界的“月考”时间。陶哲轩老师,这位当代数学圈的顶流,再次掏出了他的小本本——First Proof项目第二批评测结果,新鲜滚烫。
上次我们还在讨论AI能不能解研究级数学题,这次答案已经变成了:不仅能解,还能解出新花样,而且价格比一杯奶茶还便宜(某些情况)。
双盲同行评议:AI也要被“审稿”了
先来盘一下规则升级。这次评测最大的变化,是引入了双盲同行评议机制1。简单说,就是请了30位数学专家,像期刊审稿人那样匿名打分。评审们只能看到证明稿件,压根不知道对面是AI还是人类。这招够狠——直接堵死了“AI作弊”的嘴,也杜绝了“人类裁判放水”的可能。
评分标准分四档:
- Essentially Flawless(基本无瑕疵):逻辑严谨,直接发表。
- Minor Revisions(小修):数学没错,就是话有点啰嗦、引用写错了。
- Major Revisions(大修):方向对,但核心步骤有漏洞,需要专家填坑。
- Reject(拒稿):思路跑偏,证明造假,或者干脆答非所问。
这个评审体系,基本上是把AI当成了博士生来考核。结果呢?10道题里,有7道拿到了“基本无瑕疵”或“小修即可”的评级1——相当于AI一口气交了7篇够格发表的论文级证明。
成本大比拼:8美元 vs 4799美元,谁才是性价比之王?
这次评测最让人咋舌的不是AI的智商,而是烧钱的天壤之别。
参与的四套AI系统:
- System A(苏黎世联邦理工的IMProofBench):核心用GPT-5.5 Pro,还能调取Gemini 3.1 Pro、Claude Opus 4.7等多款模型协同作战,总花费3186美元,单题最高951美元,跑了22.9小时。
- System B(UCLA陶哲轩自家团队的Moonshot Harness):统一用GPT-5.5 Pro,结果花了4799美元,运行23.1小时——全场最贵,却只拿到了一张“稳定发挥但没突破”的成绩单。
- System C(OpenAI原生ChatGPT 5.5 Pro):全场性价比之王,10道题总共117美元,最便宜的一题只要8美元,最贵的也才16美元,运行时间仅5.8小时。但代价是原创能力偏弱,比较“老实”。
- System D(普林斯顿Momus系统):基于Gemini 3.1 Pro,花费1014美元,7.8小时,投入产出比一般。
这对比太真实了:你花4799美元请了个“数学私教”,结果人家花8美元就拿下了差不多的分数1。陶哲轩本人看了估计都得摇头——自家团队的钱花得最狠,却没换来能力突破,这波有点亏。
AI解法逆天:跳出人类套路,推导出更强结论
技术宅们最兴奋的部分来了。在10道题中,有一道关于随机偏微分方程的题目(Problem 5),被System A给出了一个跟人类完全不搭边的全新解法1。更离谱的是,AI推导出的中间结论比人类原来的解法更强——相当于人类是走大路爬山,AI直接开了条捷径还带缆车。
另外,在离散概率题(Problem 3)和代数组合题(Problem 9)上,AI也交出了与人类思路截然不同的原创论证。当遇到像经典莫比乌斯带猜想相关的离散几何题时,三套AI都能直接沿用已有研究思路顺利作答——有参考答案的题目,AI简直如鱼得水。
不过,AI也不是无敌的。在度量几何这道题上,所有系统全军覆没1,连个像样的证明都没憋出来。看来数学的某些角落,仍然是人类最后的堡垒。
陶哲轩的忧思:整体未达预期,但下一轮已经在路上了
尽管成绩亮眼,陶哲轩却在报告里泼了盆冷水:他认为本轮整体表现未达预期1。注意,这个“预期”很可能是指“AI应该能解全部10道题”或者“解得更快更便宜”。毕竟,连菲尔兹奖得主Timothy Gowers都已经用ChatGPT 5.5 Pro在17分钟内产出了论文级成果2——相比之下,First Proof的AI似乎还不够“聪明”。
但别急,第三批评测已经安排上了,时间是今年8-10月,规则沿用第二批的标准。陶哲轩把AI数学测试做成了“最严厉的母亲”——不断升级难度,不给AI任何放水的机会。
First Proof这个项目的意义,其实不在于给AI打及格或不及格。它是第一个用真实、未公开、研究级问题来画界线的基准。数学家们想知道:AI到底能不能走完“从命题到正确证明”的最后一公里?3
答案目前是:能走70%,但走得不便宜,也走不出某些死胡同。
最后说一句:如果你是个正在找题目的数学博士生,现在可能要开始慌了——因为你未来要解的题,可能已经被AI用8美元给抢发了4。
引用
-
陶哲轩First Proof二期结果出炉,最低8美元1题,AI烧出7道论文级解法·量子位·闻乐(2026/6/11)·检索日期2026/6/11 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
菲尔兹奖得主亲测ChatGPT 5.5 Pro:17分钟出论文级成果,替学生拉响红色警报·IT之家·(2026/5/8)·检索日期2026/6/11 ↩︎
-
11位顶尖数学家发了篇没结果的论文,陶哲轩推荐都关注一下·量子位·一水(2026/2/8)·检索日期2026/6/11 ↩︎
-
数学专业,危!菲尔兹奖得主亲测ChatGPT 5.5 Pro,17分钟出论文级成果·投资界·(2026/5)·检索日期2026/6/11 ↩︎