TL;DR:
曾经那个只会“嘴炮”的ChatGPT,现在“开挂”了!它不光能跟你聊天,还能像个全能打工人一样,自己规划、自己动手、自己用电脑,帮你把事儿办妥。这波啊,是OpenAI把AI从“聊天机器人”直接拉到了“超级助理”的赛道,人类距离AGI又近了一步,你准备好让AI给你“打工”了吗?
北京时间周五凌晨,OpenAI又悄咪咪地放了个“王炸”——全新的ChatGPT Agent闪亮登场!1 这可不是小修小补的迭代,Sam Altman直接喊话,看到它自己“思考、计划和执行”,感觉到了“AGI时刻”。2 什么意思?简单来说,你的ChatGPT不再只是个“嘴替”了,它现在有了自己的“虚拟计算机”,能主动选择工具,思考行动,甚至帮你完成那些复杂到让你头秃的任务!
告别“嘴替”时代:你的AI开始“打工”了!
过去,ChatGPT就像个超级学霸,知识储备惊人,但你问啥它答啥,动手能力基本为零。想查个资料,它能给你洋洋洒洒几千字,但要你让它去网站上把数据抓下来、做成PPT,那就“臣妾做不到啊”了。而现在,Agent模式一开,它仿佛瞬间拥有了“手脚”和“大脑”:
- 能思考,更会“行动”:它不再被动等待指令,而是能主动规划任务步骤,就像一个项目经理。
- 工具箱在手,天下我有:无论是浏览网页(还分“可视化”和“文本”两种模式,简直是“双屏工作狂”)、运行代码、操作终端,还是连接你的Gmail、GitHub等应用,它都能信手拈来。
- “深度研究”和“万能操作员”合体:这波升级,是OpenAI把之前各自为战的“Operator”(网页交互)和“Deep Research”(信息综合)强强联手,合二为一,从此再也没有“不擅长”的领域了。以前你让Operator干分析报告的活儿,它可能会一脸懵;让Deep Research去网页上点点点,它也爱莫能助。现在,它们融合成一个统一的智能体系统,就像给AI打通了任督二脉。
想象一下,你不再需要自己去扒拉网页找旧金山市的财务报告,也不用为了计划一场完美的棕榈泉网球之旅,在航班、酒店、美食、徒步、水疗之间反复横跳了。你只要丢给ChatGPT Agent一个指令,它就能在自己的“虚拟电脑”里帮你搞定一切,甚至直接给你生成可编辑的PPT和电子表格。1
比如,“请ChatGPT Agent搜索查询旧金山市年度综合财务报告(2020-2024 年)”,它就能智能地浏览网站、筛选结果,甚至在需要时提示你安全登录,运行代码、进行分析,最后交付可编辑的幻灯片和电子表格。这活儿,听着都比我这科技记者写稿子费劲!
最关键的是,你始终掌控全局!它在执行任何重要操作前都会征求你的许可,你也可以随时喊停,接过它手中的“方向盘”。这就像给你的AI安了个“刹车”,让人安心不少。
实力咋样?基准测试成绩单出炉!
光说不练假把式,ChatGPT Agent到底有多“能打”?OpenAI甩出了一堆亮眼的基准测试成绩:
- “人类最后考试”(Humanity's Last Exam,简称HLE):这项评估AI在专家级问题上的表现,ChatGPT Agent支持的模型拿到了41.6%的分数,这可是o3和o4-mini的几乎两倍!1 尤其是在同时进行多达八次尝试并选择信心最高结果的策略下,HLE得分能飙到44.4%!这简直是“考试之神”附体!
- FrontierMath:这是公认的“数学地狱级”基准测试,题目难到数学专家都得花好几天。ChatGPT Agent在能使用工具的情况下,准确率达到了惊人的27.4%,遥遥领先此前的所有模型。1
- SpreadsheetBench:评估处理真实电子表格任务的能力。ChatGPT Agent的表现再次“超神”,直接编辑电子表格的能力下,得分高达45.5%!而Excel里的Copilot,只有20.0%。3 这不就是告诉我们,**“你大爷还是你大爷”**吗?!
- 其他还有DSBench、投资银行分析建模、BrowseComp(刷新SOTA,比Deep Research高17.4个百分点)、WebArena等,无一例外都展现了其**“卷王”本色**,表现碾压前代或竞品。1
这些数据说明,ChatGPT Agent不光会聊天,它还真能在现实世界的复杂任务中大展身手,而且表现不是一般的好。
“能干”是真,“安全”也得抓:奥特曼的“灵魂拷问”
能力越大,责任越大。Sam Altman在发布后专门发了长推,强调了Agent的安全限制。4 这玩意儿太聪明,难免让人有点**“AI末日”的危机感**,所以OpenAI也是如临大敌:
Sam Altman表示:“尽管其效用很大,但潜在的风险也很大。我们已在其中构建了大量的安全措施和警告……但我们无法预见一切。” 他还建议:“我会向我的家人解释这是前沿和实验性的。这是一个尝试未来的机会,但在我们有机会在现实世界研究和改进它之前,我不会将它用于高风险用途或获取大量个人信息。”4
简而言之,AI再牛,它也是个“新兵蛋子”,别一股脑儿把家底都交给它。用的时候,多个心眼儿,别被AI“忽悠”了。比如,如果它帮你买衣服,就别给它访问你日历的权限。要是你让它“查看我昨晚收到的电子邮件,并采取一切必要措施处理,不要问任何后续问题”,那恭喜你,你可能正把自己的隐私往火坑里推。4
OpenAI强调,他们已经内置了明确的用户确认机制,重要的敏感操作(比如购物、预订、涉及个人数据的网站互动)都会先问你。同时,它也会主动拒绝高风险任务,比如金融交易或敏感的法律互动。这就像给AI戴上了“紧箍咒”,确保它不会**“脱缰野马”**。
网友上手:是“真香”还是“等等看”?
产品再牛,用户体验才是硬道理。一些提前拿到内测权限的网友已经开始“玩”上了:
- 20分钟搞定退休计划:X网友@rowancheung让ChatGPT Agent在20分钟内为他创建了一个完整的提前退休计划。包括查找税法、分析支出、计算储蓄、研究投资策略,甚至生成了可下载的演示文稿。他惊呼:“这活儿,财务顾问可能要收5000美元,耗时数周!”5 **这简直是“打工人福音”啊!**当然,也有竞品Genspark的CEO来“砸场子”,表示自己家产品更快更好。6
- AI帮你超市购物:有网友让ChatGPT Agent去Tesco超市买烤肉晚餐和布丁。他看着AI浏览网站、提示登录、加购物车、完成整个流程,直呼“太不可思议了”。7 不过,他也坦言,这个过程花了大约20分钟,他自己手动操作可能更快。嗯,“效率”这个小怪兽,AI还得继续打。
总的来说,ChatGPT Agent的发布,标志着AI从“知识问答”时代正式迈入“行动执行”时代。它不再只是一个聪明的“聊天搭子”,而是一个真真切切能为你**“跑腿办事”的智能助理。虽然目前可能有些任务还不是那么快,安全边界也需要我们小心探索,但毫无疑问,我们正在见证AI从“嘴炮王者”到“行动派”的史诗级进化**。未来,你的AI助理能帮你干多少事儿?想想都让人**“细思极恐”又“期待拉满”**!
引用
-
刚刚,OpenAI通用智能体ChatGPT Agent正式登场·机器之心·关注Agent的(2025/7/18)·检索日期2025/7/18 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
OpenAI CEO Sam Altman的推特帖子·X·Sam Altman(2025/7/18)·检索日期2025/7/18 ↩︎
-
隆重推出ChatGPT 智能体:连接研究与实践·OpenAI·(2025/7/18)·检索日期2025/7/18 ↩︎
-
Introducing ChatGPT Agent: Connecting Research & Practice·OpenAI·(2025/7/18)·检索日期2025/7/18 ↩︎ ↩︎ ↩︎
-
Rowan Cheung的推特帖子·X·@rowancheung(2025/7/18)·检索日期2025/7/18 ↩︎
-
Eric Jing的推特帖子·X·@ericjing_ai(2025/7/18)·检索日期2025/7/18 ↩︎
-
The Alex Banks的推特帖子·X·@thealexbanks(2025/7/18)·检索日期2025/7/18 ↩︎