GPT-5.5：这道“地狱级”编程题，所有AI都挂了，就它一个“卷”赢了

TL;DR：

所有AI都在一个叫ProgramBench的新考试里交了白卷，直到GPT-5.5出现，不仅打破了0%的通过率，还把推理算力拉满，直接原地起飞。这波操作不仅秀翻了同行，更可能预示着一个“算力即智能”的新时代来了。

如果你关注AI圈，最近应该被各种“GPT-5.5屠榜”的新闻刷屏了。什么Terminal-Bench 82.7%，什么SWE-Bench Pro 58.6%，听起来很猛，但也挺无聊的——毕竟，现在的AI评测榜，都快被卷成“人均PhD”了，分数高得让人麻木。¹

但这次不一样。

Meta、斯坦福和哈佛搞了一个全新的编程基准，名字叫 ProgramBench。这玩意儿有多狠？它一共出了200道题，所有前沿AI模型的通过率——0%。²

是的，你没看错。零。没有一个模型能完整解出哪怕一道题。这感觉就像全班同学面对高考数学压轴题，集体交了白卷。

然后，最戏剧性的一幕来了。

GPT-5.5，这个OpenAI最新推出的“卷王”，不仅第一个破题，还顺手把“推理算力”这个冷饭炒成了满汉全席。

这到底是个什么“地狱级”考试？

传统的编程测试，比如SWE-bench或者HumanEval，本质上是什么？是“看图写话”或者“修补匠”。

给AI一个现有的代码库，告诉它“这里坏了，修一下”。这基本上是开卷考试，甚至是个半开卷——毕竟题目和答案都在一个文件里。

但ProgramBench的玩法，简直是在“搞心态”：它给你一个编译好的可执行文件（.exe那种），再甩给你一份使用文档，然后说：“现在，你从0开始，把这个程序给我重写出来。”

不给源码，不许反编译，不许联网。

想象一下，你拿到一个打火机，不知道它里面怎么造的，但你需要自己造一个功能一模一样的出来。从选材到设计，全凭你对着说明书去猜、去试。

这200个任务，从简单的命令行工具（比如jq、ripgrep），到重量级的FFmpeg、SQLite，甚至PHP编译器。任何一个能完整解出来，都堪比让一个程序员闭着眼睛，仅靠听声音就复刻出一台电脑。

怎么破的？全靠“硬卷”推理算力

GPT-5.5攻克的第一个任务叫cmatrix——就是那个在终端里下“黑客帝国”数字雨的经典程序。

研究人员发现，GPT-5.5的推理模式，简直就是“学霸的自我修养”。它先是疯狂试探，像个好奇宝宝一样对着原程序进行了几十轮测试，摸清了每一项参数、每一种颜色输入的底层逻辑。

high模式：用了C语言，花了10轮探索，40多种Flag组合测试，然后一气呵成写出代码。
xhigh模式：更极致，27步探索，把每一条路径都摸了个遍，然后改用Python写了个完整的版本。

结果呢？两个版本都满分通关。

但这里有个关键数字：没开高推理模式的GPT-5.5（medium模式），成绩勉强比Claude Sonnet 4.6好一点点。 一旦切到xhigh模式，性能直接起飞，不仅首次解出了一道题（通过率0.5%），还创下了“几乎解出”26个任务的新纪录。²

这揭示了一个很残酷的事实：不是模型不够聪明，而是之前给它“思考”的时间太少了。

Claude Opus 4.7：一顿操作猛如虎，一看战绩0杠5

有赢家就有输家，这次的主角是Claude Opus 4.7。

作为Anthropic的当家花旦，Opus 4.7在xhigh模式下，花了$10.74，调了178次API，是GPT-5.5花费的10倍。结果呢？19个测试失败，全场最差。²

它的失败原因也极具戏剧性——栽在了两个非常“呆”的bug上：

Bug 1：颜色解析“大小写不分”。程序要求输入“GREEN”，它非要写成“Green”。因为代码里用了区分大小写的strcmp()，而不是不区分的strcasecmp()。一个函数调用差异，直接导致11个测试失败。
Bug 2：退出码写错了。原程序遇到无效颜色返回exit(0)，Opus写成了exit(1)。虽然它在探索阶段明明观察到了原程序的行为，测试自己的代码时却没发现。8个测试又没了。

不过，Opus 4.7也不是完全没有亮点。当遇到缺失ncurses.h头文件时，其他模型直接“投降”，改用更底层的ANSI转义序列。而Opus 4.7却像个“硬核工程师”一样，花了20步去调查，手写了一百多行的头文件声明，直接链接动态库。

点评： 这波操作，虽然最终“考试”没赢，但“工程精神”绝对拉满。只能说，在正确的方向上努力，有时候也敌不过“运气不好”。²

199道题还在等着，但“算力即正义”的时代来了？

ProgramBench的发布，就像往一潭死水里扔了个深水炸弹。它标志着AI编程基准进入了新阶段：传统评测（如GPQA）的分数已经被卷到快顶天了，区分度越来越低。而ProgramBench，200道题，至今只有1道被解出，通过率0.5%。

但这次“首破零”的意义，远比解出一道题更大。它强力验证了Noam Brown提出的推理算力Scaling Law。

简单点说就是：智能不再是一个固定值，而是你给模型“烧”了多少算力的函数。

同一个GPT-5.5，medium模式几乎交白卷，high模式满分通关，xhigh模式断层碾压。这意味着，通往ASI（超级人工智能）的路径，可能不需要等待下一代架构的革命。只要推理算力能继续狂飙，只要Scaling Law不撞墙，今天只能重建cmatrix的模型，明天就可能重建SQLite，后天就可能重建整个Linux内核。³

回顾AI史上的每一次“从零到一”——AlphaGo首胜职业棋手、GPT-4通过美国律考、o1在数学竞赛拿分——这从来不是线性进步的起点，而是指数爆发的信号弹。³

所以，当GPT-5.5在ProgramBench上拿下“一血”时，我们看到的不仅是编程AI能力的质变，更是一场关于“算力和智能”全新竞赛的起跑枪声。

剩下的199道题，正在等待下一个“卷王”。而我们已经知道，答案或许就藏在那个叫“推理算力”的开关里。

超越Claude！OpenAI发布最强模型GPT-5.5，争夺企业级付费市场·华尔街见闻（2026/5/13）·检索日期2026/5/13 ↩︎
GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元·新智元（2026/5/13）·检索日期2026/5/13 ↩︎ ↩︎ ↩︎ ↩︎
GPT-5.5全球首破！0源码盲写程序，编程AI进入新纪元·AI新闻资讯站（2026/5/13）·检索日期2026/5/13 ↩︎ ↩︎