OpenAI新“卷王”驾到!GPT-5-Codex:7小时不打烊,这是要抢程序员“饭碗”?

温故智新AIGC实验室

TL;DR:

OpenAI又祭出“大杀器”GPT-5-Codex,不仅能动态“烧脑”七小时不歇菜,还能自主查Bug、改代码,把竞品Claude Code甩在身后。程序员们,你的“铁饭碗”可能要加点AI辅助了!

嘿,各位“代码搬砖工”们,最近是不是感觉有点“危机感”?别怪我没提醒你,OpenAI那个“卷王”又回来了,而且这次是直接冲着你的键盘来的!1 9月15日,OpenAI悄悄放出了一枚“重磅炸弹”——GPT-5-Codex,一个专门为AI辅助编程“魔改”过的GPT-5变体。这波操作,直接把AI编程赛道的火药味拉满,大有要把“隔壁老王”Anthropic家的Claude Code拍在沙滩上的架势!

“肝帝”上线:GPT-5-Codex凭什么“卷”赢全场?

咱们先来扒一扒这个“新晋卷王”到底有啥看家本领,能让大家“一整个爱住”又“绷不住了”。

1. “时间管理大师”:它能“想”多久,全看心情(和难度)!

以往的AI模型,给它个任务,要不秒回,要不直接懵圈。但GPT-5-Codex可不一样,它学会了“动态思考”!用OpenAI自己的话说,它完成一个编码任务,所需的时间从几秒到七个小时不等,简直是编程界的“时间管理大师”啊!1

这就好比你让一个新手和一个老司机去修车。新手可能看一眼就说修不了,老司机则会根据车的复杂程度,沉下心来,可能花半小时,也可能花七小时,直到彻底搞定。GPT-5-Codex,就是那个“能肝七小时”的老司机,而且还不要加班费!

OpenAI产品负责人Alexander Embiricos就说了,它不像之前某些模型那样,一开始就决定好要用多少算力。GPT-5-Codex厉害在能实时调整,任务开始五分钟后觉得“有点难,得再琢磨一个小时”,它就能继续“肝”下去。据说最长能连续工作超过7小时,完成大型重构,迭代修复测试错误,直到完美交付。这波操作,效率和深度兼顾,妥妥的“打工人”楷模!

2. 代码“福尔摩斯”:你的Bug,它比你先找到!

各位写代码的同学,最怕啥?发布前被同事发现一堆Bug,或者线上Bug连环炸!GPT-5-Codex这回升级了增强的代码审查功能,简直就是代码界的“福尔摩斯”!1

它不是那种傻乎乎的静态分析工具,而是会“读懂”你的PR意图,然后推理整个代码库和依赖项,甚至还会跑一遍你的代码和测试,来验证行为是否符合预期。这就意味着,那些最细致的人工审查员才能发现的“深坑”,Codex能提前给你挖出来,还能通过 @codex 审核 这种“点名”方式,指定它去检查安全漏洞或过时的依赖项。

OpenAI内部已经“以身作则”了,Codex现在负责审查公司绝大多数的PR,每天发现数百个问题,而且通常比人工审核还要早!这简直是开发团队的“YYDS”啊,让发布新功能都更有底气了。

3. “全能选手”:前端后端通吃,手机电脑无缝切换!

别以为它只会埋头苦“肝”后端逻辑,GPT-5-Codex在前端方面也表现亮眼。创建炫酷的桌面应用,优化移动网站的用户偏好评估,甚至在云端工作时,它还能查看用户输入的图像或屏幕截图,直观地检查进度,并向用户展示“效果图”。1

更牛的是,它现在已经整合到ChatGPT账号里了,你可以在VS Code里开始一个任务,然后出门买菜时,直接在手机上的ChatGPT App里让Codex Web继续完成!本地和云端无缝切换,这用户体验,简直“一整个爱住”!

“隔壁老王”Anthropic,你还好吗?——基准测试和用户反馈

OpenAI这波更新,简直就是明着和Anthropic“叫板”!特别是在AI编程领域,竞争已经白热化。

1. 擂台赛:Codex vs. GPT-5(和潜在的Claude Code)

在衡量代理编码能力的SWE-bench Verified基准测试中,GPT-5-Codex的表现优于GPT-5原版12 值得一提的是,OpenAI最初只报告了477个任务的结果,还是被Anthropic指出问题后,才迅速调整到了500个任务,这“隔空喊话”的火药味,是不是很足?

数据也很有趣:

  • 低负载任务:GPT-5-Codex使用的token数量比GPT-5减少了93.7%,极致效率
  • 高复杂度任务:GPT-5-Codex的推理、编辑、测试和迭代时间是GPT-5的两倍,深度投入

这不就是传说中的“该省省,该花花”吗?

2. 网友辣评:这AI有点“逆天”!

GPT-5-Codex一发布,立刻在网上炸开了锅。知名博主Dan Shipper就表示“震撼”:

“它会根据任务动态选择‘思考’时间——难题上能长时间工作,简单问题则能即时给出答案。在我们的生产代码库测试中,它可以自主运行长达35分钟——相比之下,GPT-5往往过于谨慎,这是一次明显的升级。……这是一次非常出色的升级,让Codex CLI成为了Claude Code的有力替代品。”1

(哥们,这不就是“真香定律”嘛?之前嫌它慢,现在直接叫“真香”了!)

Reddit上也有用户体验后惊呼“改写游戏规则”:

“今天,我遇到了一些关于Electron渲染和JSON生成的简单bug,这些bug在三周前Codex都无法解决(我之前已经分别咨询了它10次)。今天我试用了新版本,它一次性解决了这些问题,并且真的按照我的指示解决了问题。”1

(10次搞不定的Bug,新版一次解决?这战斗力,简直“神仙下凡”!)

3. 程序员的“饭碗焦虑”:我们还有未来吗?

当然,有惊叹,就有担忧。有人就直言不讳地感到了就业危机:

“当这种服务能够在夜间和周末稳定运行时,游戏规则就会彻底改变。初级开发人员根本无法与之竞争。毕竟,这项服务的费用仅在20到200美元之间,而雇佣一名初级开发人员每月则需要公司支付5000到10000美元。……如果让我回到大学重新选择专业,我大概不会再考虑主修计算机科学。”1

(这位老哥,你是不是把心里话说出来了?但别急,程序员的未来,可能比你想的更精彩!)

不过也有乐观派指出,编程的重心将更多转向架构设计,而不是单纯编写代码。

“真正的乐趣在于:当我的想法被实现时,它们似乎在某种意义上‘活’了过来。而让所有代码顺利协同运行,本身就包含许多挑战与问题解决,这些始终是缺乏通用智能的人工智能所难以克服的。因此,我认为在我们真正达到 AGI(通用人工智能)之前,编程这一职业基本不会完全消亡。”1

(听君一席话,胜读十年书!程序员们,与其焦虑,不如进化成“AI驯兽师”!)

钞能力出击:AI编码赛道的“神仙打架”有多烧钱?

OpenAI这次“亮肌肉”,也恰逢整个AI编码赛道**“钞能力”横飞,竞争烈度拉满**。

  • Anysphere (Cursor):这家公司今年6月刚完成了9亿美元的融资,估值直接冲到99亿美元!年化收入(ARR)每两个月翻一番,已超过5亿美元。这吸金能力,简直“恐怖如斯”!1
  • Anthropic (Claude):作为OpenAI的强劲对手,它本月初也宣布完成了130亿美元的新一轮融资,估值高达1830亿美元!尽管面临OpenAI和Meta的激烈竞争,但人家光是今年1月到8月,经常性收入就增长了五倍,这实力也不容小觑。1
  • Replit:Agentic AI软件创建平台,同样在本月完成2.5亿美元融资,估值达30亿美元,年化收入不到一年从280万美元飙升至1.5亿美元,增幅超过50倍1
  • 甚至连代码编辑器Windsurf,也因为被谷歌和Cognition“抢人”而遭遇混乱收购。1

这简直是一场资本狂热与技术竞速交织的“大乱斗”!巨头们疯狂加码,初创公司们也铆足了劲儿狂奔,目的只有一个:在AI赋能软件开发的这个“超级风口”上,抢占C位!

然而,正如评论所言,在资本狂热的背后,市场能否真正沉淀出具有持续生命力的产品,而不是仅仅停留在“估值的游戏”上,仍有待时间验证。1 无论是OpenAI、Anthropic这样的明星,还是Replit、Anysphere这样的新锐,都必须回答同一个问题:如何让AI编码工具真正融入开发流程、提升生产力,而不仅仅是**“看起来很美”**。

未来的AI编程世界,是“你死我活”的淘汰赛,还是“共同繁荣”的和谐局?我们拭目以待!但有一点可以肯定,这波“代码革命”,才刚刚开始。

引用


  1. Introducing upgrades to Codex·OpenAI·(2025/9/16)·检索日期2025/9/16 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. SWE-bench Verified·(2025/9/16)·检索日期2025/9/16 ↩︎