卷王GPT-5-Codex突袭编程界:AI程序员,请坐下!

温故智新AIGC实验室

TL;DR:

OpenAI又来“搞事情”了,带着它的全新“卷王”——GPT-5-Codex杀入编程智能体战场。这货不光能连轴转7小时写代码,还能根据任务“灵活变身”,简直是程序员的“梦中情AI”和友商的“噩梦”!

都2025年了,AI圈的“神仙打架”那是一刻都没停过。正当你以为各路AI编程智能体已经把战场炒得火热,OpenAI却突然扔下了一颗“重磅炸弹”:GPT-5-Codex,一个专为“智能体编程”重新设计的GPT-5特殊版本,一出现就直奔“编程界卷王”宝座而来。

这回OpenAI直接把当年那个让码农们又爱又恨的Codex品牌名搬了出来,挂在了GPT-5后面,足见其对编程领域的“野心”有多大。它不仅能让代码重构、审查和缺陷发现变得更丝滑,还自带一套“动态资源分配”黑科技,简直是AI界的“变形金刚”,该省省、该花花,效率拉满!

“双模”特长加身:AI界多面手,主打一个全能!

咱们先来速通一下这位“新晋卷王”的几大杀手锏。 GPT-5-Codex 可不是只会“傻写代码”的工具人,它可是个拥有全面的“双模”特长的狠角色:

  • 即时协作模式:就像你的左膀右臂,你刚提出问题,它就能实时响应,小bug分分钟搞定,让你体验“丝滑”的编程乐趣。
  • 独立执行模式:这才是真正“大招”!它能像个“老黄牛”一样,长时间自主推进复杂任务。什么大规模代码重构跨文件调试,甚至能连续7小时不间断地干活,比某些人类码农都“持久”!1 听到这,是不是有种“我的饭碗不保”的危机感?

简单来说,GPT-5-Codex 不仅跑得快,还非常靠谱。小任务秒回,大任务能扛,简直是程序员加班路上的“救星”,或者……“卷王”本身?

性能狂飙:从“补锅侠”到“高阶架构师”?

光说不练假把式,GPT-5-Codex在实际测试中表现如何呢?数据不会骗人:

  1. 代码重构能力:在被誉为“真实世界任务试金石”的代码重构任务上,GPT-5-Codex 的准确率直接飙升到 51.3%,把之前的GPT-5-high(33.9%)远远甩在身后。这就像以前AI只能帮你“补个小洞”,现在它能帮你“重建一栋大楼”了!
  2. 动态资源分配:这是GPT-5-Codex的“黑科技”所在。对于那些简单请求,它能“精打细算”,token消耗量比GPT-5减少93.7%,简直是“省钱小能手”!但遇到“硬骨头”任务时,它又会“火力全开”,投入双倍的思考时间,代码推理、编辑、测试、迭代,一个不落,誓把问题解决到底。用OpenAI产品负责人的话说,它厉害之处在于能在任务开始几分钟后才决定要不要再花一个小时,而不是一开始就定死。1 这智商,简直了!
  3. 代码审查:以前AI给的评论,可能掺杂着“废话”或者“跑题”,但GPT-5-Codex经过特殊训练,能精准打击关键缺陷。“不正确评论”显著降低到4.4%(之前是13.7%),而“高影响力评论”则一路狂飙到52.4%。这意味着,它给的建议,句句都是“干货”,让开发者把精力集中在刀刃上。

用OpenAI官方的话说,这些改进让“Vibe Coding”更接近于严肃的工程化编程,嗯,感觉“摸鱼”的空间又小了一点点呢。

考古“Harness”:OpenAI的“秘密武器”和2030年的畅想

为啥这回OpenAI非要重启“Codex”这个名字?据总裁Greg在播客里“爆料”,这事儿得从GPT-3时代说起。他们那时就发现模型能根据文档自动补全函数代码,那一刻,他们就嗅到了“语言模型写代码”的魔力

Greg还提到了一个“早于Vibe Coding”的**“Harness”概念**。这个词原意是“马具、缰绳”,在AI这里,它代表着把模型这个“大脑”和外部环境(工具、IDE、终端、云端)连接起来的“集成框架”。

"模型本身就像‘马’或‘大脑’,能产生力量。Harness就像‘缰绳/集成框架’,把模型和外部环境连起来,让它能真正执行任务、发挥效能。" — OpenAI总裁Greg对“Harness”的形象解释。

简单来说,如果模型是你的“超强AI大脑”,那么Harness就是你的“操作系统”和“万能接口”,它决定了这个大脑能不能真的“动起来”,干实事。尤其在编程这种需要大量与外部工具交互的场景下,Harness的重要性几乎和模型智能本身同等关键

OpenAI还在内部偷偷“孵化”了一些“小怪兽”,来探索AI编程的极限:

  • 10x:一款内部原型,据说能将开发效率提高十倍,工程师可以“合上笔记本电脑让任务继续运行”!1 听起来就很“赛博朋克”,可惜还没对外发布,吊足了胃口。
  • Agents.md:一个专门写给Codex的README文件,能压缩上下文,让AI更快理解项目,少走弯路。
  • Code Review Agent:这个简直是“压轴大招”,OpenAI内部团队甚至在产品上线前一晚,依赖它审查数十个PR,最终实现了几乎零bug发布1 真是惊掉了下巴,这不就是“AI把守质量关”的未来吗?

OpenAI甚至放话:到2030年,软件开发将不再是“人写代码+工具辅助”,而是**“AI写大部分代码+人类监督和设计架构”**。开发者将更像是“团队指挥官”,专注于战略和创意,而那些繁琐、重复、危险的工作,统统交给AI智能体。嗯,听起来还挺香的!

收手吧,GPT-5-Codex,外面全是编程智能体!

你以为OpenAI一鸣惊人?其实,这场“编程智能体大战”早已硝烟弥漫,国内外各大巨头都在疯狂“卷”这个赛道。正如RSS标题所说:“收手吧GPT-5-Codex,外面全是AI编程智能体!”

看看这“豪华阵容”,简直是“神仙打架”:

  • 国外选手

    • Cursor:深度集成IDE,自带Agent模式,能跨文件、项目级别重构,简直是AI编程IDE的“老司机”。
    • Claude Code CLI:以代码diff、工具调用能力和快速原型实验见长,CLI界的“弄潮儿”。
    • Gemini CLI:上下文窗口(context window)超大,处理大型代码库重构能力不俗,妥妥的“大胃王”。
    • GitHub Copilot:老牌劲旅,大家的老朋友了,现在也在不断升级扩展。
  • 国内玩家

    • 腾讯CodeBuddy:大厂出品,必属精品。
    • 通义千问Qwen3-Coder:阿里系的“代码高手”。
    • 字节TRAE:字节跳动的“秘密武器”。
    • 百度文心智能体平台:百度的“全能选手”。
    • DeepSeek V3.1系列:最新版本在编程智能体和命令行任务上表现优异,实力不容小觑。

虽然OpenAI很早就洞察到**“语言模型能编程”**这个“真理”,但俗话说得好,“起个大早,赶了晚集”。在“AI编程IDE”和“AI编程CLI”这些细分赛道上,认知已经被Cursor和Claude Code这些“先行者”给抢占了。

所以,这回GPT-5-Codex带着它的“双模”特长和“动态智能”来势汹汹,能否在这场白热化的“编程智能体大战”中杀出重围,一举拿下“AI智能体编程”的头衔,让我们拭目以待!毕竟,AI的进步,永无止境!

引用


  1. 连续干7小时“不累”,OpenAI最强编程模型GPT-5-Codex来了·36氪·智东西(2025/09/15)·检索日期2025/09/16 ↩︎ ↩︎ ↩︎ ↩︎