OpenAI喜提IMO金牌？大瓜反转：这波操作是“偷跑”还是“实力秀”？

TL;DR：

OpenAI高调宣称IMO数学竞赛夺金，结果被曝“偷跑”官宣，惹恼数学界大佬陶哲轩和组委会。虽然OpenAI回应“时间没毛病”，但这波“蹭热度”让AI圈子的公关战又升温了，也引发了大家对AI数学能力边界的深度思考。

最近AI圈的“瓜”一个接一个，但OpenAI这颗，属实是又大又圆，还带着点“酸”味。事情是这样的：OpenAI前脚刚高调宣布自家AI模型在国际数学奥林匹克（IMO）竞赛中斩获“金牌水平”，要知道这可是数学界的“奥林匹克”，每年能拿金牌的都是万里挑一的数学天才¹。然而，这波高调官宣没多久，就被网友和IMO内部人士“扒皮”，直指其操作有“水分”，甚至涉嫌“偷跑”。这究竟是AI实力真的YYDS，还是OpenAI又在玩“流量密码”？吃瓜群众表示，瓜有点烫嘴，但必须得吃！

惊天大瓜：IMO金牌变“自嗨”？

就在OpenAI高调秀完“肌肉”之后，一场意想不到的“反转”大戏悄然上演。

“OpenAI根本没和我们IMO官方合作！他们甚至无视了我们的赛事规则，在闭幕派对还没结束的时候，就急吼吼地抢先官宣了！”²

好家伙，这不就是典型的“吃相难看”吗？为了避免AI公司抢了人类选手的风头，IMO评审团可是有明文规定的——结果要等到闭幕式结束一周后才能公布。结果OpenAI倒好，直接把“潜规则”当成了“空气”。这波操作，直接让网友怒批其不尊重人类选手，炒作过头！

谷歌DeepMind的负责人Thang Luong更是直接点名：

“是的，IMO组委会有一份不对外公开的官方评分标准。如果OpenAI的模型没按照这个标准评估，那任何奖牌声明都无效。扣掉1分，可能连金牌都不是，只能算银牌！”³

这话一出，OpenAI这块“金牌”的含金量瞬间打了折扣，敢情是OpenAI自己颁给自己的“金牌”？这波操作，简直是“自嗨”到极致。

大佬陶哲轩也下场了！“神仙”都看不下去了？

AI圈的风吹草动，自然少不了顶尖大佬的关注。菲尔兹奖得主——那个被誉为“数学界莫扎特”的陶哲轩（Terence Tao）也坐不住了。他一口气连发三条推文，虽然没指名道姓，但明眼人都知道他说的就是OpenAI这事儿：

“我不会评论任何未预先公开测试方法的AI竞赛成绩报告。在缺乏受控测试环境的情况下，AI的数学能力难以准确评估。”⁴

陶神这话，简直就是给OpenAI的“自嗨”来了个“精准打击”。没有公开透明的测试流程，没有受控的比赛环境，你AI再牛，也难服众啊！

IMO组委会的另一位成员Joseph Myers也证实，OpenAI根本就不是他们官方合作的AI测试公司之一，而且连91位协调员都没参与其结果评估⁴。P6题的协调员更是直言不讳：

“OpenAI此举显得失礼且不妥当。”²

至此，OpenAI的“金牌”之路，简直是槽点满满。连专注于数学AI的初创公司Harmonic都发文证实了IMO那个“7月28日之后公布结果”的规定⁵，这下OpenAI是真的“百口莫辩”了。

OpenAI紧急回应：就差七分钟，真不冤？

面对铺天盖地的质疑，OpenAI的研究科学家、传说中的“德扑之父”Noam Brown终于下场回应了。他给出了两点“铁证”：

“我们团队是在闭幕式‘之后’才公开结果的。闭幕式有直播记录，这一点很容易核实。”
“我们确实没和IMO官方协调，但我们在发帖前，确实告知了一位组织者，他们要求我们等到闭幕式结束后再发布——我们也照做了。”²

有网友更是化身“时间管理大师”，精确计算了IMO闭幕式结束时间（当地时间7月19日下午5点43分）和OpenAI发文时间（当地时间7月19日下午5点50分）。掐指一算，OpenAI确实是在闭幕式结束7分钟后才发布的公告。

这回应一出，似乎又给这起事件来了个“反转”？然而，网友们并不买账。即便时间上“卡点成功”，这种“擦边球”式的操作，依旧让人觉得OpenAI过于炒作，完全没有给那些日夜苦读、真正拿到金牌的人类学生留下一点点“高光时刻”。更有甚者，直言OpenAI这次的“骚操作”太符合其一贯的“品牌调性”了——追求曝光，不惜“踩线”²。

可以确定的是，OpenAI这次公布的“金牌”结果，并没有得到IMO官方的正式认证。而隔壁的谷歌DeepMind，则表示会在未来几天正式发布他们AI模型在IMO 2025的详细结果，看来这场AI巨头间的“数学竞赛”和“公关战”，才刚刚进入高潮。

AI搞数学，是真牛还是炒作？来自UCLA的冷静分析

撇开这些“公关战”的硝烟，我们不禁要问，AI在数学领域到底表现如何？UCLA应用数学教授Ernest Ryu对OpenAI这次事件发表了相对冷静的看法，为我们提供了宝贵的专业洞察：

P1-P5，AI表现确实不错。 他认为OpenAI模型解决IMO竞赛中的P1-P5题，答案看起来是正确的。这几道题虽然也难，但大多还在IMO的“标准”解题技巧范围内。
P6，才是真正的“分水岭”。 他强调，第6题通常是一个“明显新颖且难度更高”的问题，需要真正的创造性思维，这恰恰是OpenAI的模型目前所缺乏的。这就像P1-P5是“基础训练”，而P6则是“开宗立派”的难题。
短期内，LLM取代数学家？没门！ Ryu教授结合自己使用大模型进行数学研究的经验，直言大模型在短期内不会取代数学家。因为真正的数学研究，是要解决那些“没有人”知道如何解决的问题（也就是在训练数据分布之外的问题），这需要极大的创造力，而这正是当前AI的短板²。
未来，LLM将是“加速器”！ 然而，对于那些人类已有能力解决的问题（即在训练数据分布之内），LLM只会变得愈加强大。Ryu教授预测，在未来十年里，越来越多的数学家将借助LLM来搜索证明框架中的已知部分，从而大大提升研究效率。

这就像是一个“老兵”的智慧，LLM可以帮你快速调取“武器库”里的标准装备，但要打一场史无前例的“战役”，还得靠人类的“灵光一闪”。老一辈数学家或许会对此唏嘘不已，但年轻一代只会拥抱工具，产出更多优秀成果。

所以，OpenAI的IMO“金牌”风波，表面看是一场公关闹剧，实则也是一次对AI数学能力边界的“压力测试”，更是一场AI巨头“流量争夺战”的真实写照。AI在“复制”和“加速”方面已是王者，但在真正的“创造”面前，它还有很长的路要走。人类的智慧，依然是这个世界最耀眼的“金牌”。

引用

https://www.51cto.com/article/820925.html 陶哲轩回应OpenAI新模型IMO夺金！GPT-5测试版也曝光了 - 51CTO · 51CTO · (2025/7/21) · 检索日期2025/7/21 ↩︎
https://eu.36kr.com/zh/p/3387916853706499 一盘大棋，OpenAI“截胡”IMO金牌，奥特曼为GPT-5献上“核弹级”预热 · 36氪 · (2025/7/21) · 检索日期2025/7/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
https://x.com/lmthang/status/1946960256439058844 lmthang on X · X · Thang Luong (2025/7/21) · 检索日期2025/7/21 ↩︎
https://x.com/ns123abc/status/1947016206768046452 ns123abc on X · X · (2025/7/21) · 检索日期2025/7/21 ↩︎ ↩︎
https://x.com/Mihonarium/status/1947027989608190065 Mihonarium on X · X · (2025/7/21) · 检索日期2025/7/21 ↩︎