王炸来袭！ChatGPT Agent正式“上岗”，你的AI开始“打工”了？！

TL;DR：

曾经那个只会“嘴炮”的ChatGPT，现在“开挂”了！它不光能跟你聊天，还能像个全能打工人一样，自己规划、自己动手、自己用电脑，帮你把事儿办妥。这波啊，是OpenAI把AI从“聊天机器人”直接拉到了“超级助理”的赛道，人类距离AGI又近了一步，你准备好让AI给你“打工”了吗？

北京时间周五凌晨，OpenAI又悄咪咪地放了个“王炸”——全新的ChatGPT Agent闪亮登场！¹ 这可不是小修小补的迭代，Sam Altman直接喊话，看到它自己“思考、计划和执行”，感觉到了“AGI时刻”。² 什么意思？简单来说，你的ChatGPT不再只是个“嘴替”了，它现在有了自己的“虚拟计算机”，能主动选择工具，思考行动，甚至帮你完成那些复杂到让你头秃的任务！

告别“嘴替”时代：你的AI开始“打工”了！

过去，ChatGPT就像个超级学霸，知识储备惊人，但你问啥它答啥，动手能力基本为零。想查个资料，它能给你洋洋洒洒几千字，但要你让它去网站上把数据抓下来、做成PPT，那就“臣妾做不到啊”了。而现在，Agent模式一开，它仿佛瞬间拥有了“手脚”和“大脑”：

能思考，更会“行动”：它不再被动等待指令，而是能主动规划任务步骤，就像一个项目经理。
工具箱在手，天下我有：无论是浏览网页（还分“可视化”和“文本”两种模式，简直是“双屏工作狂”）、运行代码、操作终端，还是连接你的Gmail、GitHub等应用，它都能信手拈来。
“深度研究”和“万能操作员”合体：这波升级，是OpenAI把之前各自为战的“Operator”（网页交互）和“Deep Research”（信息综合）强强联手，合二为一，从此再也没有“不擅长”的领域了。以前你让Operator干分析报告的活儿，它可能会一脸懵；让Deep Research去网页上点点点，它也爱莫能助。现在，它们融合成一个统一的智能体系统，就像给AI打通了任督二脉。

想象一下，你不再需要自己去扒拉网页找旧金山市的财务报告，也不用为了计划一场完美的棕榈泉网球之旅，在航班、酒店、美食、徒步、水疗之间反复横跳了。你只要丢给ChatGPT Agent一个指令，它就能在自己的“虚拟电脑”里帮你搞定一切，甚至直接给你生成可编辑的PPT和电子表格。¹

比如，“请ChatGPT Agent搜索查询旧金山市年度综合财务报告（2020-2024 年）”，它就能智能地浏览网站、筛选结果，甚至在需要时提示你安全登录，运行代码、进行分析，最后交付可编辑的幻灯片和电子表格。这活儿，听着都比我这科技记者写稿子费劲！

最关键的是，你始终掌控全局！它在执行任何重要操作前都会征求你的许可，你也可以随时喊停，接过它手中的“方向盘”。这就像给你的AI安了个“刹车”，让人安心不少。

实力咋样？基准测试成绩单出炉！

光说不练假把式，ChatGPT Agent到底有多“能打”？OpenAI甩出了一堆亮眼的基准测试成绩：

“人类最后考试”（Humanity's Last Exam，简称HLE）：这项评估AI在专家级问题上的表现，ChatGPT Agent支持的模型拿到了41.6%的分数，这可是o3和o4-mini的几乎两倍！¹ 尤其是在同时进行多达八次尝试并选择信心最高结果的策略下，HLE得分能飙到44.4%！这简直是“考试之神”附体！
FrontierMath：这是公认的“数学地狱级”基准测试，题目难到数学专家都得花好几天。ChatGPT Agent在能使用工具的情况下，准确率达到了惊人的27.4%，遥遥领先此前的所有模型。¹
SpreadsheetBench：评估处理真实电子表格任务的能力。ChatGPT Agent的表现再次“超神”，直接编辑电子表格的能力下，得分高达45.5%！而Excel里的Copilot，只有20.0%。³ 这不就是告诉我们，**“你大爷还是你大爷”**吗？！
其他还有DSBench、投资银行分析建模、BrowseComp（刷新SOTA，比Deep Research高17.4个百分点）、WebArena等，无一例外都展现了其**“卷王”本色**，表现碾压前代或竞品。¹

这些数据说明，ChatGPT Agent不光会聊天，它还真能在现实世界的复杂任务中大展身手，而且表现不是一般的好。

“能干”是真，“安全”也得抓：奥特曼的“灵魂拷问”

能力越大，责任越大。Sam Altman在发布后专门发了长推，强调了Agent的安全限制。⁴ 这玩意儿太聪明，难免让人有点**“AI末日”的危机感**，所以OpenAI也是如临大敌：

Sam Altman表示：“尽管其效用很大，但潜在的风险也很大。我们已在其中构建了大量的安全措施和警告……但我们无法预见一切。” 他还建议：“我会向我的家人解释这是前沿和实验性的。这是一个尝试未来的机会，但在我们有机会在现实世界研究和改进它之前，我不会将它用于高风险用途或获取大量个人信息。”⁴

简而言之，AI再牛，它也是个“新兵蛋子”，别一股脑儿把家底都交给它。用的时候，多个心眼儿，别被AI“忽悠”了。比如，如果它帮你买衣服，就别给它访问你日历的权限。要是你让它“查看我昨晚收到的电子邮件，并采取一切必要措施处理，不要问任何后续问题”，那恭喜你，你可能正把自己的隐私往火坑里推。⁴

OpenAI强调，他们已经内置了明确的用户确认机制，重要的敏感操作（比如购物、预订、涉及个人数据的网站互动）都会先问你。同时，它也会主动拒绝高风险任务，比如金融交易或敏感的法律互动。这就像给AI戴上了“紧箍咒”，确保它不会**“脱缰野马”**。

网友上手：是“真香”还是“等等看”？

产品再牛，用户体验才是硬道理。一些提前拿到内测权限的网友已经开始“玩”上了：

20分钟搞定退休计划：X网友@rowancheung让ChatGPT Agent在20分钟内为他创建了一个完整的提前退休计划。包括查找税法、分析支出、计算储蓄、研究投资策略，甚至生成了可下载的演示文稿。他惊呼：“这活儿，财务顾问可能要收5000美元，耗时数周！”⁵ **这简直是“打工人福音”啊！**当然，也有竞品Genspark的CEO来“砸场子”，表示自己家产品更快更好。⁶
AI帮你超市购物：有网友让ChatGPT Agent去Tesco超市买烤肉晚餐和布丁。他看着AI浏览网站、提示登录、加购物车、完成整个流程，直呼“太不可思议了”。⁷ 不过，他也坦言，这个过程花了大约20分钟，他自己手动操作可能更快。嗯，“效率”这个小怪兽，AI还得继续打。

总的来说，ChatGPT Agent的发布，标志着AI从“知识问答”时代正式迈入“行动执行”时代。它不再只是一个聪明的“聊天搭子”，而是一个真真切切能为你**“跑腿办事”的智能助理。虽然目前可能有些任务还不是那么快，安全边界也需要我们小心探索，但毫无疑问，我们正在见证AI从“嘴炮王者”到“行动派”的史诗级进化**。未来，你的AI助理能帮你干多少事儿？想想都让人**“细思极恐”又“期待拉满”**！

引用

刚刚，OpenAI通用智能体ChatGPT Agent正式登场·机器之心·关注Agent的（2025/7/18）·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
OpenAI CEO Sam Altman的推特帖子·X·Sam Altman（2025/7/18）·检索日期2025/7/18 ↩︎
隆重推出ChatGPT 智能体：连接研究与实践·OpenAI·（2025/7/18）·检索日期2025/7/18 ↩︎
Introducing ChatGPT Agent: Connecting Research & Practice·OpenAI·（2025/7/18）·检索日期2025/7/18 ↩︎ ↩︎ ↩︎
Rowan Cheung的推特帖子·X·@rowancheung（2025/7/18）·检索日期2025/7/18 ↩︎
Eric Jing的推特帖子·X·@ericjing_ai（2025/7/18）·检索日期2025/7/18 ↩︎
The Alex Banks的推特帖子·X·@thealexbanks（2025/7/18）·检索日期2025/7/18 ↩︎