OpenAI杀疯了！GPT-5-Codex爆肝7小时，程序员饭碗还能保住吗？

TL;DR：

OpenAI这次真的“玩大了”，直接甩出编程“卷王”GPT-5-Codex，不仅能动态“思考”最长7小时，还能当你的金牌代码审查员。Anthropic的Claude Code刚有点起色，就被网友调侃“拍在沙滩上”。这波操作，让不少程序员直呼“危”，但也激发了对未来编程模式的新思考！

9月15日，OpenAI再次向科技圈投下一枚“重磅炸弹”：正式发布了一款名为GPT-5-Codex的新模型。这可不是一般的模型，它是经过特殊“训练”的GPT-5变体，专为AI辅助编程而生。此消息一出，圈内瞬间沸腾，毕竟隔壁Anthropic的Claude Code才刚有点火头，OpenAI就迫不及待地“宣战”了。

这波“硬刚”来得猝不及防，GPT-5-Codex最炫酷的特性之一，就是它那“骚操作”般的动态思考时间。用官方的话来说，完成一项编码任务，它可能只需几秒钟，但如果遇到“硬骨头”，竟然能爆肝长达七个小时！¹ 这简直就是程序员界的“肝帝”，而且还是个永不疲惫的“数字肝帝”。

程序员们的“金牌搭档”还是“终结者”？

GPT-5-Codex的厉害之处，远不止“能肝”那么简单。它的一大亮点，就是增强版的代码审查功能。想象一下，你辛辛苦苦写完代码，交给它一审，那些隐藏在犄角旮旯里的潜在错误，还没上线就被它揪出来了，简直是开发者的“福音”。

这玩意儿怎么做到的呢？它可不像传统的静态分析工具那么“死板”。Codex能把你的PR（Pull Request）意图，跟实际代码差异进行灵魂匹配，然后通读整个代码库及其依赖，甚至还会亲自执行代码和测试来验证行为。这活儿，要是让人工来干，得耗费多少心血？Codex就像一个把细节控做到了极致的超级人类，它填补了空白，减轻了审查人员的负担，让团队能够更自信地交付产品。

更贴心的是，一旦在GitHub代码库里启用Codex，它就能自动开启“卷王模式”，在你的PR从草稿变成正式发布前，全程无休地进行审核并发布分析。如果它给你提了修改意见，你甚至可以直接在同一个线程里，让它帮你把修改实施了。遇到某些特定问题，你还可以直接“@codex 审核安全漏洞”或者“@codex 审核过时的依赖项”，简直是把私人助理服务拉满！¹

据OpenAI内部透露，Codex现在已经扛起了公司内部绝大多数PR的审核大旗，每天能发现数百个问题，而且通常比人工审核还要早。这效率，简直了！

实力硬核：不仅“能肝”，还更“会肝”

除了逆天的代码审查，GPT-5-Codex的另一个技术突破，就是它能根据任务复杂度，像人类一样“灵活应变”，动态调整思考时间。OpenAI表示，它结合了两种核心技能：

敏捷互动：对于小任务，它能像个“机灵鬼”一样，跟开发者进行交互式会话，快速给出反馈。
独立爆肝：遇到大型项目，它也能像个“老黄牛”一样，持续独立执行，直到交付完整成果。

在OpenAI的内部测试中，GPT-5-Codex的表现简直是“开了挂”。它能连续独立工作超过7小时，完成大型重构，不断迭代、修复测试错误，最终成功交付。这意味着，无论是“小打小闹”的bug修复，还是需要“马拉松式”的大规模项目，GPT-5-Codex都能游刃有余。难怪有网友感叹：“这不就是我的理想下属吗？”

不仅如此，这款“编程核弹”在多项基准测试中，表现也相当亮眼。OpenAI官方数据显示，在SWE-bench Verified（衡量AI代理编码能力的基准测试）上，GPT-5-Codex甚至超越了它的大哥GPT-5！² 尤其是在低负载任务中，它使用的token数量比GPT-5减少了93.7%，效率直接“拉满”；而在高复杂度任务中，它的推理、编辑、测试和迭代时间是GPT-5的两倍，简直是把“慢工出细活”和“快刀斩乱麻”完美结合了。

OpenAI的产品负责人Alexander Embiricos也解释说，这性能飞跃，主要归功于GPT-5-Codex的动态“思考能力”。不像GPT-5的路由器一开始就决定了要投入多少计算力，Codex可以根据任务进展，实时调整“爆肝”时长。**“开局5分钟，发现不对劲？没关系，再给自己加一个小时！”**这种灵活调整，让资源利用达到了最优。

网友炸锅了：饭碗要不保了？

GPT-5-Codex的发布，在网络上掀起了滔天巨浪。知名博主Dan Shipper在体验后直呼“震撼”：¹

“它会根据任务动态选择‘思考’时间——难题上能长时间工作，简单问题则能即时给出答案。在我们的生产代码库测试中，它可以自主运行长达 35 分钟——相比之下，GPT-5 往往过于谨慎，这是一次明显的升级。它支持本地与网页开发环境的无缝切换。你可以在 VS Code 中启动一个任务，然后在去购物时把它交给 Codex Web 继续完成。它配备了代码审查智能体，会真正运行你的代码，因此能发现更多 bug。” —— Dan Shipper

在Reddit上，用户们的反馈更是五花八门，有惊喜、有焦虑，甚至有人直接感受到了“就业危机”：

“今天，我遇到了一些关于 Electron 渲染和 JSON 生成的简单 bug，这些 bug 在三周前 Codex 都无法解决（我之前已经分别咨询了它 10 次）。今天我试用了新版本，它一次性解决了这些问题，并且真的按照我的指示解决了问题。我看到了一篇关于 Anthropic CEO 所说的 90% 代码将由 AI 生成的帖子，我认为他是对的——但 Anthropic 并没有做到这一点。从我 2 小时的使用体验来看，我认为 Codex 最终会编写我近 75% 的代码，另外 15% 是我自己编写的，10% 是 Claude 编写的，至少在上下文可控的情况下是这样。” —— Reddit用户

另一位网友的发言，更是直接戳中了“打工人”的心窝子：

“当这种服务能够在夜间和周末稳定运行时，游戏规则就会彻底改变。初级开发人员根本无法与之竞争。毕竟，这项服务的费用仅在 20 到 200 美元之间，而雇佣一名初级开发人员每月则需要公司支付 5000 到 10000 美元。再把病假、节假日、周末加班费、保险等成本计算进去，这项服务为公司节省的开支可能是雇佣初级开发人员的 500 到 1000 倍。可以预见，这个行业即将迎来巨大的转变。如果让我回到大学重新选择专业，我大概不会再考虑主修计算机科学。” —— Reddit用户，对GPT-5-Codex的担忧

不过，也有相对乐观的声音，认为AI编程工具的崛起，会让编程的重心更多转向架构设计和问题解决，而不是单纯地编写原始代码。毕竟，让想法“活”过来，让代码顺利协同运行的挑战，仍是缺乏通用智能的AI难以完全克服的。

AI编程赛道：一场“烧钱”又“烧脑”的资本大戏

这次OpenAI的“亮剑”，无疑是AI编码工具市场竞争白热化的一个缩影。去年以来，这个赛道简直是“人满为患”，各路豪强你追我赶。

Anysphere的Cursor：光是今年6月就完成了9亿美元融资，估值直接飙到99亿美元，而且年化收入几乎每两个月翻一番，简直是**“印钞机”体质**。¹
Anthropic的Claude：作为OpenAI的强劲对手，也完成了130亿美元的新一轮融资，估值直冲1830亿美元，成为全球最具价值的初创公司之一。它的Claude Code模型，在权威编程基准测试SWE-bench Verified上，与OpenAI的GPT-5-Codex互有胜负，可谓是**“旗鼓相当”**的对手。³
Replit：这个Agentic AI软件创建平台，也宣布完成2.5亿美元融资，估值30亿美元，年化收入在不到一年里增长了50多倍，增长速度简直是坐了火箭。¹

当然，有高歌猛进的，也有“一地鸡毛”的。比如代码编辑器Windsurf，就遭遇了一场混乱的收购，团队成员被谷歌和Cognition两家公司“瓜分”，听着都替他们捏把汗。¹

在巨额融资与激烈竞争的交织下，AI编码赛道正进入前所未有的高光时刻。巨头加码、初创狂奔、资本追逐，一派“烈火烹油”的景象。但在这资本狂热的背后，市场能否真正沉淀出具有持续生命力的产品，仍有待时间验证。毕竟，无论是OpenAI、Anthropic这样的明星企业，还是Replit、Anysphere等新锐公司，都必须面对一个共同的考题——如何让AI编码工具真正融入开发流程、提升生产力，而不是仅仅停留在**“估值的游戏”**上。

引用

OpenAI发布新模型硬刚Anthropic，Claude Code刚火，就被GPT-5-Codex拍在沙滩上？·AI前线·冬梅（2025/9/16）·检索日期2025/9/16 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
新版GPT-5 刚刚发布，最卷AI 连肝代码7 小时，编程工具大洗牌开始了·53AI Hub·无（2025/9/16）·检索日期2025/9/16 ↩︎
Anthropic发布全球最强编码模型Claude 4，可7小时连续编码 - 腾讯云·腾讯云开发者社区·无（2025/9/16）·检索日期2025/9/16 ↩︎