TL;DR:
所有AI都在一个叫ProgramBench的新考试里交了白卷,直到GPT-5.5出现,不仅打破了0%的通过率,还把推理算力拉满,直接原地起飞。这波操作不仅秀翻了同行,更可能预示着一个“算力即智能”的新时代来了。
如果你关注AI圈,最近应该被各种“GPT-5.5屠榜”的新闻刷屏了。什么Terminal-Bench 82.7%,什么SWE-Bench Pro 58.6%,听起来很猛,但也挺无聊的——毕竟,现在的AI评测榜,都快被卷成“人均PhD”了,分数高得让人麻木。1
但这次不一样。
Meta、斯坦福和哈佛搞了一个全新的编程基准,名字叫 ProgramBench。这玩意儿有多狠?它一共出了200道题,所有前沿AI模型的通过率——0%。2
是的,你没看错。零。没有一个模型能完整解出哪怕一道题。这感觉就像全班同学面对高考数学压轴题,集体交了白卷。
然后,最戏剧性的一幕来了。
GPT-5.5,这个OpenAI最新推出的“卷王”,不仅第一个破题,还顺手把“推理算力”这个冷饭炒成了满汉全席。
这到底是个什么“地狱级”考试?
传统的编程测试,比如SWE-bench或者HumanEval,本质上是什么?是“看图写话”或者“修补匠”。
给AI一个现有的代码库,告诉它“这里坏了,修一下”。这基本上是开卷考试,甚至是个半开卷——毕竟题目和答案都在一个文件里。
但ProgramBench的玩法,简直是在“搞心态”:它给你一个编译好的可执行文件(.exe那种),再甩给你一份使用文档,然后说:“现在,你从0开始,把这个程序给我重写出来。”
不给源码,不许反编译,不许联网。
想象一下,你拿到一个打火机,不知道它里面怎么造的,但你需要自己造一个功能一模一样的出来。从选材到设计,全凭你对着说明书去猜、去试。
这200个任务,从简单的命令行工具(比如jq、ripgrep),到重量级的FFmpeg、SQLite,甚至PHP编译器。任何一个能完整解出来,都堪比让一个程序员闭着眼睛,仅靠听声音就复刻出一台电脑。
怎么破的?全靠“硬卷”推理算力
GPT-5.5攻克的第一个任务叫cmatrix——就是那个在终端里下“黑客帝国”数字雨的经典程序。
研究人员发现,GPT-5.5的推理模式,简直就是“学霸的自我修养”。它先是疯狂试探,像个好奇宝宝一样对着原程序进行了几十轮测试,摸清了每一项参数、每一种颜色输入的底层逻辑。
- high模式:用了C语言,花了10轮探索,40多种Flag组合测试,然后一气呵成写出代码。
- xhigh模式:更极致,27步探索,把每一条路径都摸了个遍,然后改用Python写了个完整的版本。
结果呢?两个版本都满分通关。
但这里有个关键数字:没开高推理模式的GPT-5.5(medium模式),成绩勉强比Claude Sonnet 4.6好一点点。 一旦切到xhigh模式,性能直接起飞,不仅首次解出了一道题(通过率0.5%),还创下了“几乎解出”26个任务的新纪录。2
这揭示了一个很残酷的事实:不是模型不够聪明,而是之前给它“思考”的时间太少了。
Claude Opus 4.7:一顿操作猛如虎,一看战绩0杠5
有赢家就有输家,这次的主角是Claude Opus 4.7。
作为Anthropic的当家花旦,Opus 4.7在xhigh模式下,花了$10.74,调了178次API,是GPT-5.5花费的10倍。结果呢?19个测试失败,全场最差。2
它的失败原因也极具戏剧性——栽在了两个非常“呆”的bug上:
- Bug 1:颜色解析“大小写不分”。程序要求输入“GREEN”,它非要写成“Green”。因为代码里用了区分大小写的
strcmp(),而不是不区分的strcasecmp()。一个函数调用差异,直接导致11个测试失败。 - Bug 2:退出码写错了。原程序遇到无效颜色返回
exit(0),Opus写成了exit(1)。虽然它在探索阶段明明观察到了原程序的行为,测试自己的代码时却没发现。8个测试又没了。
不过,Opus 4.7也不是完全没有亮点。当遇到缺失ncurses.h头文件时,其他模型直接“投降”,改用更底层的ANSI转义序列。而Opus 4.7却像个“硬核工程师”一样,花了20步去调查,手写了一百多行的头文件声明,直接链接动态库。
点评: 这波操作,虽然最终“考试”没赢,但“工程精神”绝对拉满。只能说,在正确的方向上努力,有时候也敌不过“运气不好”。2
199道题还在等着,但“算力即正义”的时代来了?
ProgramBench的发布,就像往一潭死水里扔了个深水炸弹。它标志着AI编程基准进入了新阶段:传统评测(如GPQA)的分数已经被卷到快顶天了,区分度越来越低。而ProgramBench,200道题,至今只有1道被解出,通过率0.5%。
但这次“首破零”的意义,远比解出一道题更大。它强力验证了Noam Brown提出的推理算力Scaling Law。
简单点说就是:智能不再是一个固定值,而是你给模型“烧”了多少算力的函数。
同一个GPT-5.5,medium模式几乎交白卷,high模式满分通关,xhigh模式断层碾压。这意味着,通往ASI(超级人工智能)的路径,可能不需要等待下一代架构的革命。只要推理算力能继续狂飙,只要Scaling Law不撞墙,今天只能重建cmatrix的模型,明天就可能重建SQLite,后天就可能重建整个Linux内核。3
回顾AI史上的每一次“从零到一”——AlphaGo首胜职业棋手、GPT-4通过美国律考、o1在数学竞赛拿分——这从来不是线性进步的起点,而是指数爆发的信号弹。3
所以,当GPT-5.5在ProgramBench上拿下“一血”时,我们看到的不仅是编程AI能力的质变,更是一场关于“算力和智能”全新竞赛的起跑枪声。
剩下的199道题,正在等待下一个“卷王”。而我们已经知道,答案或许就藏在那个叫“推理算力”的开关里。