陶哲轩的AI数学“期末考”成绩单：7道题过关，最便宜8美元一题，最贵花了4799美元

TL;DR

陶哲轩主导的First Proof项目第二次评测火辣出炉——10道从未公开的研究级数学难题，AI解出了7道达到发表标准。最低8美元就能让AI帮你“写论文”，最贵的方案花了近5000美元却没能突破能力天花板。更刺激的是，AI还整出了人类没见过的原创解法，数学界直呼“这波我服”。

又到了AI数学界的“月考”时间。陶哲轩老师，这位当代数学圈的顶流，再次掏出了他的小本本——First Proof项目第二批评测结果，新鲜滚烫。

上次我们还在讨论AI能不能解研究级数学题，这次答案已经变成了：不仅能解，还能解出新花样，而且价格比一杯奶茶还便宜（某些情况）。

双盲同行评议：AI也要被“审稿”了

先来盘一下规则升级。这次评测最大的变化，是引入了双盲同行评议机制¹。简单说，就是请了30位数学专家，像期刊审稿人那样匿名打分。评审们只能看到证明稿件，压根不知道对面是AI还是人类。这招够狠——直接堵死了“AI作弊”的嘴，也杜绝了“人类裁判放水”的可能。

评分标准分四档：

Essentially Flawless（基本无瑕疵）：逻辑严谨，直接发表。
Minor Revisions（小修）：数学没错，就是话有点啰嗦、引用写错了。
Major Revisions（大修）：方向对，但核心步骤有漏洞，需要专家填坑。
Reject（拒稿）：思路跑偏，证明造假，或者干脆答非所问。

这个评审体系，基本上是把AI当成了博士生来考核。结果呢？10道题里，有7道拿到了“基本无瑕疵”或“小修即可”的评级¹——相当于AI一口气交了7篇够格发表的论文级证明。

成本大比拼：8美元 vs 4799美元，谁才是性价比之王？

这次评测最让人咋舌的不是AI的智商，而是烧钱的天壤之别。

参与的四套AI系统：

System A（苏黎世联邦理工的IMProofBench）：核心用GPT-5.5 Pro，还能调取Gemini 3.1 Pro、Claude Opus 4.7等多款模型协同作战，总花费3186美元，单题最高951美元，跑了22.9小时。
System B（UCLA陶哲轩自家团队的Moonshot Harness）：统一用GPT-5.5 Pro，结果花了4799美元，运行23.1小时——全场最贵，却只拿到了一张“稳定发挥但没突破”的成绩单。
System C（OpenAI原生ChatGPT 5.5 Pro）：全场性价比之王，10道题总共117美元，最便宜的一题只要8美元，最贵的也才16美元，运行时间仅5.8小时。但代价是原创能力偏弱，比较“老实”。
System D（普林斯顿Momus系统）：基于Gemini 3.1 Pro，花费1014美元，7.8小时，投入产出比一般。

这对比太真实了：你花4799美元请了个“数学私教”，结果人家花8美元就拿下了差不多的分数¹。陶哲轩本人看了估计都得摇头——自家团队的钱花得最狠，却没换来能力突破，这波有点亏。

AI解法逆天：跳出人类套路，推导出更强结论

技术宅们最兴奋的部分来了。在10道题中，有一道关于随机偏微分方程的题目（Problem 5），被System A给出了一个跟人类完全不搭边的全新解法¹。更离谱的是，AI推导出的中间结论比人类原来的解法更强——相当于人类是走大路爬山，AI直接开了条捷径还带缆车。

另外，在离散概率题（Problem 3）和代数组合题（Problem 9）上，AI也交出了与人类思路截然不同的原创论证。当遇到像经典莫比乌斯带猜想相关的离散几何题时，三套AI都能直接沿用已有研究思路顺利作答——有参考答案的题目，AI简直如鱼得水。

不过，AI也不是无敌的。在度量几何这道题上，所有系统全军覆没¹，连个像样的证明都没憋出来。看来数学的某些角落，仍然是人类最后的堡垒。

陶哲轩的忧思：整体未达预期，但下一轮已经在路上了

尽管成绩亮眼，陶哲轩却在报告里泼了盆冷水：他认为本轮整体表现未达预期¹。注意，这个“预期”很可能是指“AI应该能解全部10道题”或者“解得更快更便宜”。毕竟，连菲尔兹奖得主Timothy Gowers都已经用ChatGPT 5.5 Pro在17分钟内产出了论文级成果²——相比之下，First Proof的AI似乎还不够“聪明”。

但别急，第三批评测已经安排上了，时间是今年8-10月，规则沿用第二批的标准。陶哲轩把AI数学测试做成了“最严厉的母亲”——不断升级难度，不给AI任何放水的机会。

First Proof这个项目的意义，其实不在于给AI打及格或不及格。它是第一个用真实、未公开、研究级问题来画界线的基准。数学家们想知道：AI到底能不能走完“从命题到正确证明”的最后一公里？³

答案目前是：能走70%，但走得不便宜，也走不出某些死胡同。

最后说一句：如果你是个正在找题目的数学博士生，现在可能要开始慌了——因为你未来要解的题，可能已经被AI用8美元给抢发了⁴。

引用

陶哲轩First Proof二期结果出炉，最低8美元1题，AI烧出7道论文级解法·量子位·闻乐（2026/6/11）·检索日期2026/6/11 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
菲尔兹奖得主亲测ChatGPT 5.5 Pro：17分钟出论文级成果，替学生拉响红色警报·IT之家·（2026/5/8）·检索日期2026/6/11 ↩︎
11位顶尖数学家发了篇没结果的论文，陶哲轩推荐都关注一下·量子位·一水（2026/2/8）·检索日期2026/6/11 ↩︎
数学专业，危！菲尔兹奖得主亲测ChatGPT 5.5 Pro，17分钟出论文级成果·投资界·（2026/5）·检索日期2026/6/11 ↩︎