OpenAI GPT-5.4 深度评测:从“对话框”走向“操作系统”,原生电脑操控时代的质变与边界

温故智新AIGC实验室

TL;DR:

GPT-5.4 是 OpenAI 首个内置“原生电脑操控能力”的主线模型,标志着 AI 从文本生成向自主代理(Agent)的跨越。其在 OSWorld 测试中首次超越人类基准水平,虽然在多语言输入兼容性与复杂 UI 识别上仍存局限,但已展现出极高的办公自动化与跨应用协同价值。

功能解析:Native Computer Use 与 OpenClaw 的深度融合

GPT-5.4 的核心突破在于其原生电脑操控能力(Native Computer Use)。与以往通过插件或受限环境运行不同,GPT-5.4 能够直接“观察”屏幕图像,并像人类一样发送鼠标点击、滚动和键盘输入指令。1

这种能力主要通过两种模式实现:

  1. 代码模式(Code Mode):利用 Python 编写 Playwright 脚本,实现对浏览器和支持自动化接口应用的精确控制。
  2. 截图模式(Screenshot Mode):完全基于视觉识别,AI 实时分析屏幕截图并模拟物理操作。这使得 GPT-5.4 能够穿透那些没有公开 API 的“封闭系统”(如个人版微信)。

值得注意的是,OpenAI 在 2026 年初将著名开源项目 OpenClaw 及其创始人收归麾下,这为 GPT-5.4 带来了成熟的桌面交互逻辑。2 为了解决 Agent 运行中 Token 消耗过快的问题,新版本引入了 Compaction(上下文压缩)机制,能够自动总结任务中间过程,仅保留核心信息,显著降低了长周期任务的成本。

性能测试:基准数据与实测表现

在衡量 AI 自主操控能力的权威基准测试中,GPT-5.4 展示了统治级的性能:

  • OSWorld-Verified (桌面导航):成功率 75.0%,首次超过人类基准线(72.4%),远超前代 GPT-5.2 的 47.3%。13
  • WebArena-Verified (网页任务):成功率 67.3%
  • BrowseComp (持续浏览寻踪):得分 89.3%,刷新了行业纪录。

在实际测试中,GPT-5.4 处理跨软件协作的能力令人印象深刻。例如,要求其“归纳 24 小时 AI 新闻并发送至微信群”,它能自主完成浏览器搜索、内容总结、打开微信客户端、定位联系人、模拟粘贴并发送的全流程。

然而,“拟人化操作”也带来了类似人类的低级错误。实测中发现,当系统处于中文输入法状态时,GPT-5.4 因无法识别输入法悬浮框,在尝试输入 douyin.com 时会错误地输入为 抖音。com1 这种对输入法状态感知的缺失,是目前该模型在非英语环境下的主要短板。

竞品对比:从“脚本自动化”到“逻辑自动化”

相比传统的 RPA(机器人流程自动化)工具,GPT-5.4 的核心优势在于其动态推理与纠错能力。传统脚本在网页结构或按钮位置微调后即会失效,而 GPT-5.4 具备 Thinking 推理大纲:

  • 实时干预:用户可以在 AI 执行过程中随时打断并修正思路,而无需重启任务。
  • Tool Search 优化:在调用外部 API 时,GPT-5.4 不再全量加载工具定义,而是通过轻量化搜索按需调用。在 MCP Atlas 基准测试下,其 Token 消耗降低了 47%,准确率保持不变。1

在专业工作领域(GDPval 基准),GPT-5.4 的得分达到 83.0%,相比前代提升了 12 个百分点,这意味着它在金融建模、法律分析等长周期任务上已具备准专业人员的水平。

维度评测与综合评分

基于实际测试与技术指标,对 GPT-5.4 评测如下:

  1. 功能完整性 (9.5/10.0):原生支持键鼠模拟、截图识别与代码执行,基本覆盖了电脑操作的所有物理可能。
  2. 易用性 (8.5/10.0):对话式指令极大降低了自动化门槛,但开启完全访问权限(Full Access)的配置流程对普通用户仍有一定认知压力。
  3. 准确性与可靠性 (7.8/10.0):在标准 UI 下表现优异,但在复杂、动态或非英语输入环境下存在误触和输入偏差。
  4. 性能表现 (8.2/10.0)Compaction 机制有效缓解了 Token 压力,但受限于物理模拟,执行多步骤任务的速度仍慢于人类手动操作。
  5. 适用场景 (9.0/10.0):在企业级表格处理(Excel/Sheets 集成)、日常办公自动化、开发测试辅助领域具有无可替代的价值。
  6. 成本效益 (7.5/10.0):虽然技术上有优化,但作为主线模型,运行高频 Agent 任务的累计成本依然较高,建议优先用于高价值任务。

综合评分:8.4 推荐指数:⭐⭐⭐⭐⭐

使用指南与安全建议

  • 适用人群:深度办公用户、开发者、数据分析师以及需要处理重复性跨应用流程的企业员工。
  • 最佳实践:建议在使用时将系统输入法默认切换为英文,并配合 Thinking 模式的推理大纲进行分步确认,以防模型由于 UI 识别误差误删重要文件。
  • 安全警告:由于 GPT-5.4 需要获取屏幕录制与辅助功能权限,其在执行任务时可能涉及个人隐私。官方虽称其“欺骗行为概率低”1,但在处理涉及资金支付、敏感数据删除等高风险操作时,务必保持人工实时监管

参考资料


  1. [ChatGPT-5.4属实“动手王者”,一句话征服微信,但是我却被气笑了] · 字母AI · 苗正(2026-03-06)· 检索日期:2026-03-07 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. [OpenAI GPT-5.4「原生操控电脑」实测封神:OpenClaw 天选模型来了] · 新浪科技 · 综合报道(2026-03-06)· 检索日期:2026-03-07 ↩︎

  3. [OpenAI拋震撼彈!GPT-5.4上線AI首度能像人一樣操作電腦] · Yahoo財經 · Yahoo Finance(2026-03-06)· 检索日期:2026-03-07 ↩︎