TL;DR:
OpenAI高调宣称IMO数学竞赛夺金,结果被曝“偷跑”官宣,惹恼数学界大佬陶哲轩和组委会。虽然OpenAI回应“时间没毛病”,但这波“蹭热度”让AI圈子的公关战又升温了,也引发了大家对AI数学能力边界的深度思考。
最近AI圈的“瓜”一个接一个,但OpenAI这颗,属实是又大又圆,还带着点“酸”味。事情是这样的:OpenAI前脚刚高调宣布自家AI模型在国际数学奥林匹克(IMO)竞赛中斩获“金牌水平”,要知道这可是数学界的“奥林匹克”,每年能拿金牌的都是万里挑一的数学天才1。然而,这波高调官宣没多久,就被网友和IMO内部人士“扒皮”,直指其操作有“水分”,甚至涉嫌“偷跑”。这究竟是AI实力真的YYDS,还是OpenAI又在玩“流量密码”?吃瓜群众表示,瓜有点烫嘴,但必须得吃!
惊天大瓜:IMO金牌变“自嗨”?
就在OpenAI高调秀完“肌肉”之后,一场意想不到的“反转”大戏悄然上演。
“OpenAI根本没和我们IMO官方合作!他们甚至无视了我们的赛事规则,在闭幕派对还没结束的时候,就急吼吼地抢先官宣了!”2
好家伙,这不就是典型的“吃相难看”吗?为了避免AI公司抢了人类选手的风头,IMO评审团可是有明文规定的——结果要等到闭幕式结束一周后才能公布。结果OpenAI倒好,直接把“潜规则”当成了“空气”。这波操作,直接让网友怒批其不尊重人类选手,炒作过头!
谷歌DeepMind的负责人Thang Luong更是直接点名:
“是的,IMO组委会有一份不对外公开的官方评分标准。如果OpenAI的模型没按照这个标准评估,那任何奖牌声明都无效。扣掉1分,可能连金牌都不是,只能算银牌!”3
这话一出,OpenAI这块“金牌”的含金量瞬间打了折扣,敢情是OpenAI自己颁给自己的“金牌”?这波操作,简直是“自嗨”到极致。
大佬陶哲轩也下场了!“神仙”都看不下去了?
AI圈的风吹草动,自然少不了顶尖大佬的关注。菲尔兹奖得主——那个被誉为“数学界莫扎特”的陶哲轩(Terence Tao)也坐不住了。他一口气连发三条推文,虽然没指名道姓,但明眼人都知道他说的就是OpenAI这事儿:
“我不会评论任何未预先公开测试方法的AI竞赛成绩报告。在缺乏受控测试环境的情况下,AI的数学能力难以准确评估。”4
陶神这话,简直就是给OpenAI的“自嗨”来了个“精准打击”。没有公开透明的测试流程,没有受控的比赛环境,你AI再牛,也难服众啊!
IMO组委会的另一位成员Joseph Myers也证实,OpenAI根本就不是他们官方合作的AI测试公司之一,而且连91位协调员都没参与其结果评估4。P6题的协调员更是直言不讳:
“OpenAI此举显得失礼且不妥当。”2
至此,OpenAI的“金牌”之路,简直是槽点满满。连专注于数学AI的初创公司Harmonic都发文证实了IMO那个“7月28日之后公布结果”的规定5,这下OpenAI是真的“百口莫辩”了。
OpenAI紧急回应:就差七分钟,真不冤?
面对铺天盖地的质疑,OpenAI的研究科学家、传说中的“德扑之父”Noam Brown终于下场回应了。他给出了两点“铁证”:
- “我们团队是在闭幕式‘之后’才公开结果的。闭幕式有直播记录,这一点很容易核实。”
- “我们确实没和IMO官方协调,但我们在发帖前,确实告知了一位组织者,他们要求我们等到闭幕式结束后再发布——我们也照做了。”2
有网友更是化身“时间管理大师”,精确计算了IMO闭幕式结束时间(当地时间7月19日下午5点43分)和OpenAI发文时间(当地时间7月19日下午5点50分)。掐指一算,OpenAI确实是在闭幕式结束7分钟后才发布的公告。
这回应一出,似乎又给这起事件来了个“反转”?然而,网友们并不买账。即便时间上“卡点成功”,这种“擦边球”式的操作,依旧让人觉得OpenAI过于炒作,完全没有给那些日夜苦读、真正拿到金牌的人类学生留下一点点“高光时刻”。更有甚者,直言OpenAI这次的“骚操作”太符合其一贯的“品牌调性”了——追求曝光,不惜“踩线”2。
可以确定的是,OpenAI这次公布的“金牌”结果,并没有得到IMO官方的正式认证。而隔壁的谷歌DeepMind,则表示会在未来几天正式发布他们AI模型在IMO 2025的详细结果,看来这场AI巨头间的“数学竞赛”和“公关战”,才刚刚进入高潮。
AI搞数学,是真牛还是炒作?来自UCLA的冷静分析
撇开这些“公关战”的硝烟,我们不禁要问,AI在数学领域到底表现如何?UCLA应用数学教授Ernest Ryu对OpenAI这次事件发表了相对冷静的看法,为我们提供了宝贵的专业洞察:
- P1-P5,AI表现确实不错。 他认为OpenAI模型解决IMO竞赛中的P1-P5题,答案看起来是正确的。这几道题虽然也难,但大多还在IMO的“标准”解题技巧范围内。
- P6,才是真正的“分水岭”。 他强调,第6题通常是一个“明显新颖且难度更高”的问题,需要真正的创造性思维,这恰恰是OpenAI的模型目前所缺乏的。这就像P1-P5是“基础训练”,而P6则是“开宗立派”的难题。
- 短期内,LLM取代数学家?没门! Ryu教授结合自己使用大模型进行数学研究的经验,直言大模型在短期内不会取代数学家。因为真正的数学研究,是要解决那些“没有人”知道如何解决的问题(也就是在训练数据分布之外的问题),这需要极大的创造力,而这正是当前AI的短板2。
- 未来,LLM将是“加速器”! 然而,对于那些人类已有能力解决的问题(即在训练数据分布之内),LLM只会变得愈加强大。Ryu教授预测,在未来十年里,越来越多的数学家将借助LLM来搜索证明框架中的已知部分,从而大大提升研究效率。
这就像是一个“老兵”的智慧,LLM可以帮你快速调取“武器库”里的标准装备,但要打一场史无前例的“战役”,还得靠人类的“灵光一闪”。老一辈数学家或许会对此唏嘘不已,但年轻一代只会拥抱工具,产出更多优秀成果。
所以,OpenAI的IMO“金牌”风波,表面看是一场公关闹剧,实则也是一次对AI数学能力边界的“压力测试”,更是一场AI巨头“流量争夺战”的真实写照。AI在“复制”和“加速”方面已是王者,但在真正的“创造”面前,它还有很长的路要走。人类的智慧,依然是这个世界最耀眼的“金牌”。
引用
-
https://www.51cto.com/article/820925.html 陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了 - 51CTO · 51CTO · (2025/7/21) · 检索日期2025/7/21 ↩︎
-
https://eu.36kr.com/zh/p/3387916853706499 一盘大棋,OpenAI“截胡”IMO金牌,奥特曼为GPT-5献上“核弹级”预热 · 36氪 · (2025/7/21) · 检索日期2025/7/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
https://x.com/lmthang/status/1946960256439058844 lmthang on X · X · Thang Luong (2025/7/21) · 检索日期2025/7/21 ↩︎
-
https://x.com/ns123abc/status/1947016206768046452 ns123abc on X · X · (2025/7/21) · 检索日期2025/7/21 ↩︎ ↩︎
-
https://x.com/Mihonarium/status/1947027989608190065 Mihonarium on X · X · (2025/7/21) · 检索日期2025/7/21 ↩︎