OpenAI杀疯了!GPT-5-Codex爆肝7小时,程序员饭碗还能保住吗?

温故智新AIGC实验室

TL;DR:

OpenAI这次真的“玩大了”,直接甩出编程“卷王”GPT-5-Codex,不仅能动态“思考”最长7小时,还能当你的金牌代码审查员。Anthropic的Claude Code刚有点起色,就被网友调侃“拍在沙滩上”。这波操作,让不少程序员直呼“危”,但也激发了对未来编程模式的新思考!

9月15日,OpenAI再次向科技圈投下一枚“重磅炸弹”:正式发布了一款名为GPT-5-Codex的新模型。这可不是一般的模型,它是经过特殊“训练”的GPT-5变体,专为AI辅助编程而生。此消息一出,圈内瞬间沸腾,毕竟隔壁Anthropic的Claude Code才刚有点火头,OpenAI就迫不及待地“宣战”了。

这波“硬刚”来得猝不及防,GPT-5-Codex最炫酷的特性之一,就是它那“骚操作”般的动态思考时间。用官方的话来说,完成一项编码任务,它可能只需几秒钟,但如果遇到“硬骨头”,竟然能爆肝长达七个小时1 这简直就是程序员界的“肝帝”,而且还是个永不疲惫的“数字肝帝”。

程序员们的“金牌搭档”还是“终结者”?

GPT-5-Codex的厉害之处,远不止“能肝”那么简单。它的一大亮点,就是增强版的代码审查功能。想象一下,你辛辛苦苦写完代码,交给它一审,那些隐藏在犄角旮旯里的潜在错误,还没上线就被它揪出来了,简直是开发者的“福音”。

这玩意儿怎么做到的呢?它可不像传统的静态分析工具那么“死板”。Codex能把你的PR(Pull Request)意图,跟实际代码差异进行灵魂匹配,然后通读整个代码库及其依赖,甚至还会亲自执行代码和测试来验证行为。这活儿,要是让人工来干,得耗费多少心血?Codex就像一个把细节控做到了极致的超级人类,它填补了空白,减轻了审查人员的负担,让团队能够更自信地交付产品。

更贴心的是,一旦在GitHub代码库里启用Codex,它就能自动开启“卷王模式”,在你的PR从草稿变成正式发布前,全程无休地进行审核并发布分析。如果它给你提了修改意见,你甚至可以直接在同一个线程里,让它帮你把修改实施了。遇到某些特定问题,你还可以直接“@codex 审核安全漏洞”或者“@codex 审核过时的依赖项”,简直是把私人助理服务拉满1

据OpenAI内部透露,Codex现在已经扛起了公司内部绝大多数PR的审核大旗,每天能发现数百个问题,而且通常比人工审核还要早。这效率,简直了!

实力硬核:不仅“能肝”,还更“会肝”

除了逆天的代码审查,GPT-5-Codex的另一个技术突破,就是它能根据任务复杂度,像人类一样“灵活应变”,动态调整思考时间。OpenAI表示,它结合了两种核心技能:

  • 敏捷互动:对于小任务,它能像个“机灵鬼”一样,跟开发者进行交互式会话,快速给出反馈。
  • 独立爆肝:遇到大型项目,它也能像个“老黄牛”一样,持续独立执行,直到交付完整成果。

在OpenAI的内部测试中,GPT-5-Codex的表现简直是“开了挂”。它能连续独立工作超过7小时,完成大型重构,不断迭代、修复测试错误,最终成功交付。这意味着,无论是“小打小闹”的bug修复,还是需要“马拉松式”的大规模项目,GPT-5-Codex都能游刃有余。难怪有网友感叹:“这不就是我的理想下属吗?

不仅如此,这款“编程核弹”在多项基准测试中,表现也相当亮眼。OpenAI官方数据显示,在SWE-bench Verified(衡量AI代理编码能力的基准测试)上,GPT-5-Codex甚至超越了它的大哥GPT-52 尤其是在低负载任务中,它使用的token数量比GPT-5减少了93.7%,效率直接“拉满”;而在高复杂度任务中,它的推理、编辑、测试和迭代时间是GPT-5的两倍,简直是把“慢工出细活”和“快刀斩乱麻”完美结合了

OpenAI的产品负责人Alexander Embiricos也解释说,这性能飞跃,主要归功于GPT-5-Codex的动态“思考能力”。不像GPT-5的路由器一开始就决定了要投入多少计算力,Codex可以根据任务进展,实时调整“爆肝”时长。**“开局5分钟,发现不对劲?没关系,再给自己加一个小时!”**这种灵活调整,让资源利用达到了最优。

网友炸锅了:饭碗要不保了?

GPT-5-Codex的发布,在网络上掀起了滔天巨浪。知名博主Dan Shipper在体验后直呼“震撼”:1

“它会根据任务动态选择‘思考’时间——难题上能长时间工作,简单问题则能即时给出答案。 在我们的生产代码库测试中,它可以自主运行长达 35 分钟——相比之下,GPT-5 往往过于谨慎,这是一次明显的升级。 它支持本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务,然后在去购物时把它交给 Codex Web 继续完成。 它配备了代码审查智能体,会真正运行你的代码,因此能发现更多 bug。” —— Dan Shipper

在Reddit上,用户们的反馈更是五花八门,有惊喜、有焦虑,甚至有人直接感受到了“就业危机”:

“今天,我遇到了一些关于 Electron 渲染和 JSON 生成的简单 bug,这些 bug 在三周前 Codex 都无法解决(我之前已经分别咨询了它 10 次)。今天我试用了新版本,它一次性解决了这些问题,并且真的按照我的指示解决了问题。 我看到了一篇关于 Anthropic CEO 所说的 90% 代码将由 AI 生成的帖子,我认为他是对的——但 Anthropic 并没有做到这一点。从我 2 小时的使用体验来看,我认为 Codex 最终会编写我近 75% 的代码,另外 15% 是我自己编写的,10% 是 Claude 编写的,至少在上下文可控的情况下是这样。” —— Reddit用户

另一位网友的发言,更是直接戳中了“打工人”的心窝子:

“当这种服务能够在夜间和周末稳定运行时,游戏规则就会彻底改变。初级开发人员根本无法与之竞争。毕竟,这项服务的费用仅在 20 到 200 美元之间,而雇佣一名初级开发人员每月则需要公司支付 5000 到 10000 美元。再把病假、节假日、周末加班费、保险等成本计算进去,这项服务为公司节省的开支可能是雇佣初级开发人员的 500 到 1000 倍。 可以预见,这个行业即将迎来巨大的转变。如果让我回到大学重新选择专业,我大概不会再考虑主修计算机科学。” —— Reddit用户,对GPT-5-Codex的担忧

不过,也有相对乐观的声音,认为AI编程工具的崛起,会让编程的重心更多转向架构设计和问题解决,而不是单纯地编写原始代码。毕竟,让想法“活”过来,让代码顺利协同运行的挑战,仍是缺乏通用智能的AI难以完全克服的

AI编程赛道:一场“烧钱”又“烧脑”的资本大戏

这次OpenAI的“亮剑”,无疑是AI编码工具市场竞争白热化的一个缩影。去年以来,这个赛道简直是“人满为患”,各路豪强你追我赶。

  • Anysphere的Cursor:光是今年6月就完成了9亿美元融资,估值直接飙到99亿美元,而且年化收入几乎每两个月翻一番,简直是**“印钞机”体质**。1
  • Anthropic的Claude:作为OpenAI的强劲对手,也完成了130亿美元的新一轮融资,估值直冲1830亿美元,成为全球最具价值的初创公司之一。它的Claude Code模型,在权威编程基准测试SWE-bench Verified上,与OpenAI的GPT-5-Codex互有胜负,可谓是**“旗鼓相当”**的对手。3
  • Replit:这个Agentic AI软件创建平台,也宣布完成2.5亿美元融资,估值30亿美元,年化收入在不到一年里增长了50多倍,增长速度简直是坐了火箭1

当然,有高歌猛进的,也有“一地鸡毛”的。比如代码编辑器Windsurf,就遭遇了一场混乱的收购,团队成员被谷歌和Cognition两家公司“瓜分”,听着都替他们捏把汗1

在巨额融资与激烈竞争的交织下,AI编码赛道正进入前所未有的高光时刻。巨头加码、初创狂奔、资本追逐,一派“烈火烹油”的景象。但在这资本狂热的背后,市场能否真正沉淀出具有持续生命力的产品,仍有待时间验证。毕竟,无论是OpenAI、Anthropic这样的明星企业,还是Replit、Anysphere等新锐公司,都必须面对一个共同的考题——如何让AI编码工具真正融入开发流程、提升生产力,而不是仅仅停留在**“估值的游戏”**上。

引用


  1. OpenAI发布新模型硬刚Anthropic,Claude Code刚火,就被GPT-5-Codex拍在沙滩上?·AI前线·冬梅(2025/9/16)·检索日期2025/9/16 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 新版GPT-5 刚刚发布,最卷AI 连肝代码7 小时,编程工具大洗牌开始了·53AI Hub·无(2025/9/16)·检索日期2025/9/16 ↩︎

  3. Anthropic发布全球最强编码模型Claude 4,可7小时连续编码 - 腾讯云·腾讯云开发者社区·无(2025/9/16)·检索日期2025/9/16 ↩︎