ChatGPT Agent:通用智能体雏形,重塑人机协作新范式

温故智新AIGC实验室

TL;DR:

OpenAI发布的ChatGPT Agent并非单一功能上的颠覆,而是通用AI Agent领域的一次关键跃迁,通过端到端训练的统一模型集成了多模态工具操作能力,标志着人机协作迈向更深层次的自主化,同时引发对未来工作范式和AI伦理治理的深刻思考。

北京时间2025年7月18日凌晨,OpenAI正式发布ChatGPT Agent,一款旨在实现通用型AI Agent愿景的创新产品。尽管其呈现的功能场景在表面上与先行者如Manus等产品有相似之处,但ChatGPT Agent的革命性意义,在于其底层技术路径的本质差异与由此衍生的深远影响。它并非简单地将多个底层模型进行“外部缝合”,而是将Agent能力内化于一个统一的端到端训练模型之中,这被视为通用AI Agent的真正雏形浮现。

技术原理与端到端范式革新

ChatGPT Agent的核心在于其“统一代理系统(unified agentic system)”的设计理念1。这一系统整合了OpenAI早期的Operator(侧重网站交互)和Deep Research(侧重信息综合)团队的研究成果,由一个专门为此开发的、采用强化学习方法训练的新模型驱动2。这意味着它能够在一个单一的对话流中,无缝地从推理思考切换到执行具体动作,这与此前通过多模型调用或“工具化”方式实现Agent功能的产品形成了鲜明对比。Manus等竞品通过“外部缝合”多个底层模型来执行任务,而ChatGPT Agent则实现了Agent能力的内化与端到端训练,其系统卡片显示它与OpenAI o3同属一个系列,为代理任务而生,而非工程化的模型组合3

该Agent配备了一个沙盒化的虚拟计算机环境,并内置了四大智能工具箱:

  • 可视化浏览器 (Visual Browser):用于与图形用户界面(GUI)交互,如点击按钮、填写表单。
  • 文本浏览器 (Text-based Browser):适用于高效推理和处理大量文本的网络查询。
  • 终端 (Terminal):允许Agent运行代码、下载和处理文件。
  • API 访问:通过连接器直接调用外部应用(如Google Drive、Gmail、GitHub)的数据1

这种深度集成的能力使得ChatGPT Agent能够自主规划并执行复杂的、多工具任务,例如“分析日历,根据新闻简报即将到来的客户会议”,并最终交付可编辑的幻灯片或文档。从公开的基准测试数据来看,ChatGPT Agent在多个维度上表现出显著提升:

  • 在测量广域知识与专家级提问的 Humanity’s Last Exam (HLE) 上,单次作答准确率达到41.6% (with tool),略高于Grok4的41.0%3
  • 在极难的 FrontierMath 数学基准上,借助终端运行代码后准确率提升至27.4%3
  • 在真实知识工作任务的内部评测中,约半数案例已与人类持平或更佳,且在DSBench数据科学任务上远超人类平均水平13
  • 在SpreadsheetBench电子表格编辑能力测试中,拿到45.5%,超过Copilot in Excel的20%13

这些数据表明,尽管仍处于早期阶段,ChatGPT Agent在复杂任务执行和多工具协调方面已展现出强大的效率和精度提升

商业格局与生产力重塑

OpenAI将ChatGPT Agent直接整合到其现有的订阅服务中,Pro用户可立即使用,Plus与Team用户也将陆续开通,定价上每月20美元的Plus套餐即可使用,与Manus的19美元基础计划相去不远。这一策略无疑对纯粹提供Agent服务的初创公司如Manus构成了巨大冲击,其市场份额和用户心智将面临严峻挑战。

从商业角度看,ChatGPT Agent的发布不仅是技术秀肌肉,更是OpenAI巩固其在通用AI领域领导地位的关键一步。通过将高级Agent能力内置于其最受欢迎的消费者产品中,OpenAI旨在:

  • 扩大用户群体:降低Agent技术的使用门槛,让更多普通用户和企业用户体验到自动化复杂任务的便利性。
  • 深化用户粘性:通过提供端到端的解决方案,将用户锁定在ChatGPT生态系统内,提升订阅服务的价值。
  • 开拓企业级市场:具备分析、报告、日程管理等能力的Agent,在企业数字化转型中拥有巨大潜力,可以实现重复性任务的自动化,例如定期生成报告、会议安排、财务数据更新等1
  • 塑造行业标准:作为市场领导者,OpenAI的技术路径和产品形态往往会成为行业模仿和追赶的标杆,加速整个Agent市场向“模型即Agent”方向演进。

然而,竞争也日益激烈。诸如Anthropic的Claude在coding agent能力上表现出色,而国内的Kimi K2也以其开源混合专家模型架构和极具竞争力的价格,在“Agentic Intelligence”赛道上迅速崛起3。OpenAI在官方文档中也谦虚地表示,Agent功能仍处于早期,尤其是幻灯片生成等功能尚待提升。这表明,通用AI Agent的商业化之路才刚刚开始,市场格局远未定型,竞争将是多维度、长期性的。

伦理边界与智能体治理

伴随ChatGPT Agent强大能力的公开,OpenAI CEO Sam Altman亲自发出了郑重警告:“Agent很强大,也很危险。我们尚不清楚具体会造成什么影响,但不法分子可能会试图‘诱骗’用户的AI代理提供不该提供的私人信息并采取不该采取的行动,而这其中的方式我们无法预测。3 这体现了OpenAI对AI Agent潜在风险的深刻认识和责任担当。

为此,OpenAI内置了多重安全防护机制:

  • 明确用户授权:在执行购买、提交表单、发送邮件等关键操作前,Agent会明确请求用户许可13
  • 高风险任务拒绝:自动拒绝金融转账、提供法律建议等高风险指令13
  • 监督模式:针对发送邮件等敏感任务,要求用户全程监控3
  • 安全防护升级:加强对网页“恶意提示(prompt injection)”攻击的防御,生物/化学风险也按最高级别安全堆栈处理,并启动漏洞赏金计划3
  • 隐私控制:用户可以一键清除浏览数据并注销会话,或禁用连接器以避免联网3

这些措施旨在平衡实用性与安全性,但Agent与个人敏感数据接触、自主行动可能带来的隐私泄露、行为失控、甚至社会伦理挑战,将是未来AI治理的重点。随着Agent能力的增强,如何定义和实施“负责任的自主性”,以及构建有效的监管框架,将成为全球社会共同面临的重大议题。这不仅是技术问题,更是深刻的伦理、法律和社会治理挑战。

通向通用智能的里程碑?

尽管Sam Altman在产品演示后感叹“我感受到了AGI”,但ChatGPT Agent的发布,更像是在通向通用人工智能(AGI)的漫长征途上,迈出了扎实而关键的一步,而非终点。其“模型即Agent”的端到端训练范式,无疑是Agent领域的一个重要方向,它预示着未来AI系统将不再是孤立的模型或工具的集合,而是具备更深层次、更统一的理解和执行能力的智能实体。

未来3-5年,AI Agent将沿着以下路径持续演进:

  • 更高自主性与任务复杂性:Agent将能处理更长流程、跨越更多应用边界的复杂任务,对人类的依赖程度进一步降低,实现真正意义上的“一人一AI”或“一企一AI”的生产力提升。
  • 更强的世界模型理解:Agent将不仅仅是工具调用者,而是对现实世界有更深刻理解的“具身智能”雏形,能够更好地预测行动后果。
  • 普适性与定制化融合:通用Agent将逐步演化出面向特定行业或个人偏好的高度定制化版本,满足千差万别的需求。
  • 安全与信任成为核心竞争力:随着Agent介入人类生活和工作更深,其安全性、可解释性和可信赖性将成为用户选择和市场竞争的关键要素,相关的标准和法规也将逐步完善。

ChatGPT Agent的发布,使得通用智能体从概念走向了可实际操作的早期产品形态,加速了“AI Agent是下一代操作系统”这一愿景的实现。它开启了一个新的篇章,在这个篇章中,AI不再仅仅是提供信息的对话伙伴,而是能够自主行动、主动解决问题的“数字分身”,深刻地改变我们与数字世界的交互方式,甚至重新定义“工作”的内涵。

引用


  1. 隆重推出ChatGPT 智能体:连接研究与实践·OpenAI·(2025/7/17)·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. Introducing ChatGPT agent: bridging research and action·OpenAI·(2025/7/17)·检索日期2025/7/18 ↩︎

  3. 一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光·文学城(原文来自腾讯科技)·晓静、博阳(2025/7/18)·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎