深夜“贴脸开大”!Opus 4.6 决战 GPT-5.3,谁才是真正的“编程之王”?

温故智新AIGC实验室

TL;DR:

AI 圈的“春晚”在 2026 年 2 月 5 日深夜提前打响!Anthropic 和 OpenAI 掐着表发布了旗舰级更新,一个是能“看菜吃饭”自动调整脑力的 Opus 4.6,一个是学会了“自产自销”帮自己修 Bug 的 GPT-5.3 Codex,程序员们的“牛马”生涯似乎又要进阶了。

2026 年 2 月 5 日这一天,注定是要被写进 AI “封神榜”的。

就在这天深夜,Claude Opus 4.6 和 GPT-5.3 Codex 以前后不到一个小时的间隔先后空降。这种“你不让我,我不让你”的发布节奏,活像两个在考场上比谁先交卷的学霸。但在这场“撞车”背后,其实是关于资本、技术和未来 IPO 定价权的终极对轰1

更有意思的是,就在发布前夕,黄仁勋大佬刚上演了一出“海王式”投资:先给 Anthropic 投了 100 亿美元,反手又给 OpenAI 塞了 200 亿1。老黄这算盘珠子都要崩到大家脸上了:你们随便打,谁赢我都不亏,反正算力税我是收定了。

Claude Opus 4.6:不仅有“脑子”,还会“省着花”

Anthropic 这次的升级重点可以用四个字概括:“看菜吃饭”

Opus 4.6 引入了一个叫 “adaptive thinking(自适应思考)” 的黑科技。简单来说,就是模型变精明了:碰到“1+1 等于几”这种弱智题目,它会秒回;但要是遇到复杂的系统架构,它会停下来多琢磨一会儿1。这种在成本、速度和智商之间寻找动态平衡的能力,让它在 Terminal-Bench 2.0 这种硬核评测中直接登顶。

点评: 以前的 AI 像个耿直 Boy,不管大事小事都拼命思考;现在的 Opus 4.6 像个资深老油条,懂得把好钢用在刀刃上。

除此之外,Opus 4.6 还是首个拥有 100 万 token 上下文窗口 的旗舰级模型1。这什么概念?这意味着你可以把两本中等厚度的小说一把梭哈喂给它,它不仅不会看漏,还能在海量信息里准确揪出那个被埋在第 500 页的细节。

为了让“牛马”工作更顺滑,Anthropic 还推出了 “Agent Teams(代理团队)” 功能。你可以同时拉起一队 AI,让它们各司其职,有的写代码,有的跑测试。特别是在金融领域,Opus 4.6 的表现简直是金融民工的“救命稻草”,不管是做财报分析还是起草法律文件,它做出来的东西几乎可以“小改即用”1

GPT-5.3 Codex:会自己写自己的“超级打工人”

就在大家还在惊叹 Opus 4.6 的细致时,奥特曼在 X 上微微一笑,反手甩出了 GPT-5.3 Codex。

如果说 Opus 是个精明的专家,那 GPT-5.3 Codex 就像个自带自驱动属性的极客。它最牛的地方在于,OpenAI 居然用它的早期版本来开发后续版本2!这种“我生我自己”的操作,让它的迭代速度提升了 25%。

GPT-5.3 Codex 的工作模式也从“你问我答”进化到了“协同办公”:

  • 不仅会做,还会商量: 给它一个复杂任务,它能自己鼓捣几天,中途还会主动问你:“老板,这个功能我想这么改,你觉得行吗?”1
  • 细节控本控: 在网页开发测试中,它会自动把年度套餐的价格折算成更具诱惑力的月度单价,甚至还会自己加一个用户评价轮播图。它考虑的不再仅仅是代码能不能跑通,而是“用户体验好不好”1

与此同时,OpenAI 同日还推出了 OpenAI Frontier 平台,旨在把企业内部零散的系统整合在一起,让 AI Agent 能真正独立代表用户完成任务,而不仅仅是写段代码自嗨2

行业“地震”:AI 正在从“生成”转向“执行”

这两款产品的发布,标志着 AI 圈正式告别了“只会写诗”的文艺青年阶段,全面进入了**“硬核搬砖”**时代。

无论是 Anthropic 的“Agent Teams”,还是 OpenAI 的“Frontier”,都在传递一个信号:AI 不再满足于做一个问答窗口,它们想直接接管你的工作流。

这种转变对人类的要求也变了。以后面试程序员,可能不再考你能不能写出算法,而是考你能不能管理好一队 AI 程序员。这种竞争对用户来说当然是好事,正如一位资深网友所说:“两家公司拼得越狠,我离下班就越近。”

当然,两家巨头也没忘了在安全上表忠心。Anthropic 做了“史上最全”安全评估,OpenAI 则部署了“最强”防护措施。翻译成大白话就是:我变强了,但也绝对听话,不会乱搞13

引用