TL;DR:
别睡了!OpenAI深夜祭出核弹级更新 GPT-5.4,直接给AI装上了“手”:原生操控电脑,效率高到人类怀疑人生。这波不仅全维度“暴击”了Claude和Gemini,还顺便告诉打工人:以后连PPT和Excel,AI都做得比你香。
被Anthropic的Claude和Google的Gemini连续“按在地上摩擦”了一个月后,OpenAI终于不忍了。
就在刚刚,奥特曼深夜突袭,正式发布下一代旗舰模型 GPT-5.4。这不是一次挤牙膏式的微调,而是一次足以让友商冷汗直流的“降维打击”。之所以版本号直接跳到5.4,是因为它完成了推理与编程能力的史诗级合流。
简单来说,OpenAI重新夺回了那顶丢失已久的王冠。1
电脑操作进化:从“纸上谈兵”到“我行我上”
这次发布最炸裂的,莫过于GPT-5.4成为了首个拥有**“原生电脑使用”**能力的通用模型。
以前你让AI帮你订个机票,它顶多给你列个计划;现在,它可以直接接管你的鼠标和键盘,在软件和网页之间反复横跳,自己去点开浏览器、填表格、跑流程。
在专门测试AI操控能力的 OSWorld-Verified 基准测试中,GPT-5.4 直接拿下了 75% 的成功率。2
调侃式点评:这个成绩是什么水平?人类选手的平均分是72.4%,而一个月前刚登顶的 Claude Opus 4.6 也就 72.7%。也就是说,AI操作电脑的熟练度,已经正式超越了大部分普通打工人。
更狠的是,在只需要看截图的“纯视觉模式”下,它的成功率高达92.8%,完全是断崖式领先。这都要归功于它更强的“通用视觉感知”能力,无论屏幕上的UI多复杂,在它眼里都清晰得像一张说明书。3
办公三件套“屠榜”:华尔街分析师,你的饭碗还好吗?
如果说操控电脑是“硬功夫”,那知识工作就是GPT-5.4的“软实力”。
在 GDPval 基准测试(横跨美国GDP贡献最大的44种职业)中,GPT-5.4 以 83.0% 的成绩追平甚至超越了顶尖人类专家。无论是写销售PPT、做会计电子表格,还是排急诊排班表,它都信手拈来。4
在一项内部模拟初级投资银行分析师的测试中,它的建模得分高达87.3%。更气人的是,人类在68.0%的情况下,更偏好AI生成的PPT,理由是:美感更强、视觉更丰富。
调侃式点评:这下好了,以前AI只是想取代你的代码,现在它连你的审美都要“霸凌”了。华尔街的分析师们,现在去学开滴滴还来得及吗?
技术“缝合”怪:推理、编程、工具搜索全都要
GPT-5.4 的另一个大招是完整继承了 GPT-5.3-Codex 的编程基因。5 以后你不需要在“聪明的模型”和“会写代码的模型”之间横跳了,这哥们儿一个人就是一个团队。
为了解决“工具太多导致上下文爆炸”的问题,OpenAI还祭出了**“工具搜索”**功能。它不再需要时刻加载成千上万个工具定义,而是按需即时查找。
- Token消耗:直接狂砍47%。
- 响应速度:最高提升了1.5倍。6
而且,现在的 GPT-5.4 Thinking 模式支持**“中途介入”**。它在思考的时候,你可以随时打断并纠正方向,而不需要等它全部吐完再“推倒重来”。这种感觉就像在指挥一个懂事的实习生:不用等他错到底,你一句话他就能原地掉头。
钞能力与黑科技:幻觉降了,但钱包也瘦了
好消息是,GPT-5.4 是 OpenAI 迄今为止“最讲真话”的模型。通过算法优化,它的事实性错误降低了18%,单独声明出错的概率更是暴降33%。3
坏消息是,这种“智商”是有代价的。GPT-5.4 的定价再创新高:
- 标准版:输入2.5美元/百万token,输出15美元/百万token。
- Pro版本:价格直接翻了十倍多,输入30美元,输出180美元。6
显然,OpenAI 这是在告诉我们:顶尖的智力,不仅贵,而且非常贵。
总结来看,GPT-5.4 的发布是 OpenAI 对 Gemini 3.1 Pro 和 Claude Opus 4.6 的一次强力反击。它没有短板,甚至还多长了一双能操作电脑的手。在通往 AGI 的马拉松里,OpenAI 似乎又加速开启了下一轮的“套圈”模式。5
引用
-
OpenAI深夜突袭,GPT-5.4新王炸场!一夜之间,直接粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神话·新智元·好困 桃子(2026/3/6)·检索日期2026/3/6 ↩︎
-
Introducing GPT-5.4·OpenAI·Official Blog(2026/3/6)·检索日期2026/3/6 ↩︎
-
GPT-5.4 API & Model Details·OpenAI Developers·Technical Docs(2026/3/6)·检索日期2026/3/6 ↩︎ ↩︎
-
Claude Opus 4.6 vs. GPT-5.4 Comparison·SourceForge·Product Comparison(2026/3/6)·检索日期2026/3/6 ↩︎
-
GPT-5.3-Codex vs Claude Opus 4.6 同日发布背后的恩怨与实力较量·知乎·科技分析员(2026/3/6)·检索日期2026/3/6 ↩︎ ↩︎
-
OpenAI Official Twitter (X) Announcement·X (Twitter)·OpenAI(2026/3/6)·检索日期2026/3/6 ↩︎ ↩︎