OpenAI 终于决定不装了:GPT-5.4 亲自“夺舍”你的鼠标,OpenClaw 这下撞上铁板了?

温故智新AIGC实验室

TL;DR:

GPT-5.4 震撼发布,不再只想跟你聊天,现在它想直接接管你的电脑。原生电脑操作(CUA)能力直接拉满,顺便还把编程、推理、降本增效全给整成了“全家桶”,唯一美中不足的可能就是那依然很“贵族”的 API 定价。

那个曾经让全网疯狂心跳的 OpenAI 似乎又找回了它的“统御感”。

就在 3 月 6 日,OpenAI 毫无预兆地祭出了 GPT-5.4。这哥们儿不再满足于在网页窗口里跟你玩文字游戏,而是直接进化成了“赛博分身”。它整合了 GPT-5.2 的推理能力和 GPT-5.3-Codex 的编程基因,最杀人诛心的是,它现在原生具备了“电脑操作能力”(Computer Use Agent, CUA)1。简单来说,你不用再教它怎么做事,你可以直接把鼠标和键盘“借”给它。

OpenAI 开始抢 OpenClaw 的地盘?

这次发布最让打工人虎躯一震的,就是那个“原生电脑操作”能力。OpenAI 官方表示,这是他们首个原生具备此能力的通用模型2

以前我们要让 AI 帮我们填个表、发个邮件,往往需要像 OpenClaw 这样优秀的第三方框架在外面“套壳”适配。但现在,GPT-5.4 选择直接“肉身冲锋”。它能像真人一样盯着你的桌面截图,精准点击图标、拖动窗口、甚至在 3D 游戏里移动棋子来验证规则1

在 OSWorld Verified 的测试中,它的表现直接从 47.3% 飙升到了 75%,甚至在部分场景下超过了人类的平均水平(72.4%)3。这意味着,当你还在为了对齐 Excel 单元格而焦头烂额时,GPT-5.4 可能已经顺便帮你把下周的会议日程都订好了。

调侃点评: OpenClaw 的开发者可能正准备开香槟庆祝 AI Agent 的春天,结果转头发现 OpenAI 直接把自家的春联贴到了 OpenClaw 的大门上。

降本增效是认真的,但 API 价格也真的很“中产”

为了照顾开发者干瘪的钱包(和日益增长的 token 焦虑),GPT-5.4 引入了一个名为“工具搜索”(tool search)的黑科技。

以前,如果你想让 AI 调用 100 个工具,你得把这 100 个工具的说明书全部塞进对话里,token 烧起来跟烧纸没区别。现在,GPT-5.4 学聪明了:它先看一眼工具清单,需要用哪个再去翻具体的说明书。这种“按需检索”的骚操作,让总 token 使用量直接下降了 47%,而且准确率一点儿没掉1

在解决“一本正经胡说八道”(幻觉)的问题上,GPT-5.4 也交出了不错的成绩单。它的事实错误概率比 5.2 版本降低了 33%3。在 Harvey 的 BigLaw Bench 法律评测中,它拿到了 91% 的准确率,这让那些昂贵的初级律师们感到后脑勺凉飕飕的1

不过,能力越强,收费越狂。GPT-5.4 的 API 价格属于那种“看了想报警”的水平:

  • GPT-5.4 标准版: 每百万输入 token 2.5 美元。
  • GPT-5.4 Pro: 每百万输入 token 直接跳到 30 美元,输出更是高达 180 美元1

更有趣(或者说更扎心)的是,如果你一次性喂给它的东西超过了 27.2 万 token,费用还会直接翻倍1。这大概就是所谓的“知识越重,收费越贵”吧。

编程能力“大统一”:Codex 终于可以退休了?

如果你还在纠结写代码该选 ChatGPT 还是专用的 Codex,那 GPT-5.4 会告诉你:小孩子才做选择。

现在的 GPT-5.4 已经成为了 OpenAI 的主力编程模型,它在 SWE-Bench Pro(一个衡量修复真实 GitHub 问题能力的基准)上的表现已经追平甚至超越了之前的编程天花板 GPT-5.3-Codex2。配合新增的“Playwright 交互模式”,它甚至能边写代码边在可视化窗口里调试网页,像极了那个不仅能写 Bug 还能自己修 Bug 的全栈大牛3

为了追求极致的速度,Codex 还开启了 fast mode,速度提升最高达 1.5 倍1。对于那些追求“代码随心动”的开发者来说,这确实是史诗级的 Buff 加持。

未来已来,但你的钱包准备好了吗?

从目前的实测来看,GPT-5.4+OpenClaw 的组合,确实让我们第一次看清了“AI 数字员工”的真面目4。它不再是一个只会接话茬的聊天机器人,而是一个能真正把手伸进你的工作流、替你操盘复杂业务的智能体。

OpenAI 正在从“对话式 AI”向“智能体 AI”进行底层逻辑的暴力切换。这确实令人兴奋,但也伴随着现实的考量——当 AI 的智力成本逐渐接近甚至超过人类雇员时,我们该如何定义它的价值?

当然,对于大多数用户来说,现在的首要任务可能是:先去申请一下那个排队排到明年还没动静的 CUA 权限1

引用