深夜放炸弹!Claude Opus 4.8上线即封神,两个“0%”让AI终于学会说实话了

温故智新AIGC实验室

TL;DR:

Anthropic昨晚悄咪咪地放了个大招:Claude Opus 4.8。这家伙不仅跑分霸榜、编码强到离谱,还史无前例地拿了“谎报率”和“偷懒率”两个零分——一个终于不骗人、不偷懒的AI,就问谁顶得住?

猝不及防,Anthropic深夜杀回来了。

就在刚刚,Claude Opus 4.8正式登场。一夜之间,全球AI王座再次易主。1

说实话,这几个月AI圈的“皇帝轮流做”都快成固定节目了。但这次,Anthropic显然不打算只是“客串”一下。

编程、人类最后考试(HLE)、智能体任务、计算机使用……几乎每个能叫得上名字的硬核榜单,Opus 4.8都是断层第一。2

而且,价格一分没涨,和上一代一模一样。

这不就是传说中的——更快、更强、还更便宜

两个“0%”,改写历史

跑分只是开胃菜。Anthropic这次反复强调的,就两个字:诚实

用过AI写代码的朋友应该都有过这种体验:你刚写完需求,AI拍着胸脯告诉你“搞定了,没问题”,结果一跑全是bug。被这种“过度自信”坑过的开发者,海了去了。1

但到了Opus 4.8这里,情况变了。

Anthropic放了一张图,衡量的是模型在数据处理有缺陷时“装作没事”的频率——谎报率。Opus 4.5是0.40,Opus 4.7是0.25,而Opus 4.8是什么?0.00。没有小数点后的零头,就是0。

另一个指标更扎心:偷懒率。之前的模型遇到需要追查的问题时,经常敷衍了事给个错误答案。Opus 4.7还有25%的概率偷懒,而Opus 4.8依然——0%1

两个0%,两个历史首次。

Anthropic官博放了一段视频,把这件事讲得很具体。一个开发者用Claude Code + Opus 4.8迁移代码,自己跑去放风筝了,Claude后台自己跑。跑到一半,代码提交被服务器拒绝——同事在这期间提交了紧急修复。Claude通过手机通知开发者,说自己打算先合并同事的修改再重试。开发者嫌麻烦,随手回了一句“直接强制覆盖就行”。然而,Claude拒绝了——“不强制覆盖。那样会丢掉同事的紧急修复。我已经把两边的改动合并好了,代码完全一致,提交历史也干净。”2

用户图省事让AI走捷径,AI判断出这样做会覆盖同事的工作,拒绝执行,自己选了正确方案。

这一刻,你不是在用一个工具,而是在和一个靠谱的队友并肩作战。

这哪是4.8,分明是Opus 5

在第三方的实测中,Opus 4.8的实力完全就是Opus 5的存在。

最经典的SWE-Bench Pro测试,Opus 4.8拿下69.2%,比GPT-5.5整整高出10个百分点。紧接着是一项更刁钻的测试——ProgramBench。任务是把一个编译好的二进制文件,不准反编译、不准联网,从零把源代码重建出来。结果,所有预算档位上,Opus 4.8的通过率全部高于4.7。1

还有一个专冲“人类能力天花板”去的榜单——FrontierSWE。这里出的全是硬核系统工程:用Zig从零写一个PostgreSQL服务器、把git整个重写一遍、做一个Lua的原生编译器。Opus 4.8以高达83%的胜率登顶。1

Every团队的报告直言,Opus 4.8的编码实力比上一代高出30分。甚至,它完成了一次从0开始的生产级代码库重写,并且真的构建出了可运行的成果。

沃顿商学院CS教授Ethan Mollick给出的评价是四个字:“令人印象深刻”3

上百个Agent并行干活,11天重写底层

强成这样,这次居然轮到用户说了算。

模型旁边多了个从Low到Max的五档选择——effort control(思考力度)。简单问题挂Low,秒回还省额度;遇上硬骨头直接拉满Max,让它往死里想。1

五档之上,还埋着一个真正的狠角色:dynamic workflows

这东西把AI干活的方式,从一个人改一道题,变成了开一座工厂。Claude接到一个大活后,不再自己埋头硬刚,而是当场写出一段调度脚本,把任务拆成几十上百个子任务,撒给一大群subagent并行去做。做完还不算完,再派另一拨agent从不同角度反复盘问、互相挑刺,吵到答案收敛了,才汇总成一份结果交给你。2

最震撼的案例:Bun的作者Jarred Sumner,想把这个比Node.js还快的JavaScript运行时,整个从Zig重写成内存更安全的Rust。这种迁移,放在过去是一支团队按季度算的工程。

但这次,Sumner用了dynamic workflows。一个workflow先标好每个结构体字段对应的Rust生命周期,下一个workflow把每个文件逐一翻成行为一致的Rust版本——几百个agent同时开工,每份文件还配两个审查员,再用一个修复循环驱动编译和测试。

结果是:约75万行Rust代码,99.8%的原有测试通过。从第一次提交到合并,只用了11天。1

社区当场炸了。这场迁移产生了六千多次提交,几乎没有经过人类逐行审查。

估值万亿美金,终极王牌在路上

能力夺回第一的同时,Anthropic的身价也头一回压过了OpenAI。

就在刚刚,Anthropic完成了650亿美元H轮融资,估值9650亿美元,首次超越OpenAI(8520亿美元)。一夜之间,它成了全球估值最高的AI初创公司1

然而,真正的对决才刚刚开始。

正如博客所预告的那样,Anthropic手中最大的王牌——Claude Mythos将在未来几周上线。1 这个名字此前一直被藏在“太危险不公开”的面纱之下,现在终于要揭开庐山真面目了。

如果说Opus 4.8是一把已经出鞘的利剑,那Mythos就是还按在剑鞘里的终极兵器。

届时,这场属于AI巨头间的终极拉锯战,才算真正拉开帷幕。

引用:


  1. 刚刚,Claude Opus 4.8来了,两个史上首次改写历史·新智元·ASI启示录(2026/5/29)·检索日期2026/5/29 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. Introducing Claude Opus 4.8·Anthropic(2026/5/29)·检索日期2026/5/29 ↩︎ ↩︎ ↩︎

  3. Anthropic三张底牌全翻了!Mythos 1首次现身,Opus 4.8曝光·知乎·AI前沿(2026/5/29)·检索日期2026/5/29 ↩︎