TL;DR:
昨晚,奥特曼深夜直播放了个“大招”:ChatGPT Agent横空出世!这货不再只是个聊天机器人,而是集“冲浪高手”、“研究专家”和“办公狂魔”于一体的“超级个体”,能自主上网、做PPT、跑Excel,据说连奥特曼本人都惊呼“真AGI”!看来,打工人的“好日子”是真的要到头了,未来是“AI杠杆”的天下。
当我们在床上刷着小视频、追着剧时,大洋彼岸的OpenAI老大山姆·奥特曼却在深夜搞了个“大动作”——ChatGPT Agent,这玩意儿一亮相,直接把科技圈炸了个外焦里嫩!用奥特曼的话说,这是他真正“感受AGI”的时刻。AGI,就是通用人工智能,听起来是不是有点“黑客帝国”那味儿了?1
过去,OpenAI给咱们塞了两个“小助手”:一个是能“冲浪”的Operator,专门负责在网上点点画画;另一个是“学霸”Deep Research,擅长啃资料、做研究。它们各有神通,但总觉得少了点什么——你不能指望一个“网瘾少年”去写深度报告,也不能指望一个“书呆子”去网上帮你抢优惠券。而现在,OpenAI大手一挥,直接把这俩加上ChatGPT本体,来了个“三剑客”合体,炼成了今天的“ChatGPT Agent”!用大白话说,它就是个能自主思考、决策,还能自己上网搞定PPT和Excel的“全能打工人”!12
ChatGPT Agent:不只是升级,是“三剑客”合体开挂!
这个ChatGPT Agent的核心,在于它不是简单地把Operator和Deep Research功能拼凑在一起,而是真正形成了一个统一的智能体系统。它就像给ChatGPT装上了一套“操作系统”和“浏览器”,让AI能够像我们人类一样,直接操作电脑,甚至能登录你的Gmail和Github!
- 可视化浏览器: 就像AI长了眼睛,能看到网页上的界面,然后点击、输入,操作行云流水。
- 文本浏览器: 对于那些只需要简单推理和查询的网页任务,它能秒级处理,效率杠杠的。
- 终端+直接API访问权限: 不仅能跑代码,还能直接调用各种应用接口,比如图像API,让AI的双手伸得更远。
想象一下,你给它一个任务,它不再是“我试试看能不能”,而是“交给我,我来帮你搞定!”它会自己判断需要什么工具,自己打开网页,自己收集信息,然后自己整理输出。而且,最让人心安的是,整个过程**“一切尽在掌控之中”**:人类随时可以喊停、接管,甚至完全终止任务。这不就是电影里那种“能干活儿但又听话”的AI助理吗?
现场“炫技”:原来AI已经进化到这个地步了?!
为了证明这货不是“PPT AI”,OpenAI在发布会上直接放了几个大招,那演示效果,简直就是“YYDS”(永远的神)!
比如,策划一场婚礼。你只需要告诉Agent,有Minnie和Sarah两位朋友要结婚,需要它根据着装要求和天气情况,推荐礼服、预订酒店、准备礼物。Agent接到任务后,不是直接甩一份报告给你,而是先“聪明”地跟你确认婚礼日期,确定无误后,它就自己打开浏览器,一步步地执行任务。从搜寻合适的西装,到切换到可视化浏览器等待你确认,整个“思维链”清晰可见。
更骚的是,当Agent在忙着策划婚礼的同时,你还可以给它布置另一个任务——比如“买一双9.5码的黑色鞋子”。Agent表示“小意思”,不惧被打断,多线操作毫无压力。最后,它生成了一份非常全面的报告,从礼服到酒店,从鞋子到礼物,规划得明明白白。
还有个让“打工人”瑟瑟发抖的演示:上传一张吉祥物小狗的图片,让Agent做成笔记本贴纸,然后订购500个。Agent直接调用图像工具生成动漫图,设计好贴纸,然后从某个网站订购,地址都填好了!
更炸裂的是,它还能**连接你的Google Drive,把评估数据直接拉过来,自己生成PPT!**它会自己写代码,编译成幻灯片,甚至还会给PPT页面“搞装修”!你以为这就完了?它还会根据你的反馈,通过强化学习(RL)不断优化,把一个“粗糙版”PPT,精雕细琢成一个“高颜值”专业版,直接就能在办公软件里打开!我的天,这简直是把PPTer的饭碗都抢了啊!
硬核成绩单:Agent不只花架子,更是“卷王”体质!
光说不练假把式,ChatGPT Agent的实力,那可是经过了重重“考试”检验的。它在多个基准测试中都刷新了记录,简直是“卷王”附体!
- 人类最后考试(HLE):听起来就很吓人,这可是评估AI在日常和专业任务中的表现。ChatGPT Agent拿下了41.6%的高分,刷新了pass@1的最高纪录。要是再使点劲,并行运行8次,得分能飙到44.4%!1
- 数学FrontierMath基准:在最难的数学测试里,它借助代码终端等工具,实现了27.4%的准确率,大幅超越了此前的o3和o4-mini模型。
- 高经济价值知识工作:OpenAI内部评估,Agent在真实专业工作场景中,比如写竞品分析、编摊销表、找水源,半数案例质量与人类相当,甚至碾压人类!
- 数据科学生产力任务(DSBench):Agent显著超越人类表现。
- Excel编辑能力(SpreadsheetBench):当直接获得编辑权限时,ChatGPT Agent以45.5%的得分,把Excel Copilot的20.0%甩开了几条街。
- 投行分析师建模任务:在OpenAI的内部评估中,Agent的底层模型碾压了Deep Research和o3模型。
- 网络浏览能力:在BrowseComp基准测试中,Agent以68.9%的准确率刷新纪录,比Deep Research高出17.4%。在WebArena基准测试中,表现也优于基于o3的CUA(Operator背后的底层模型)。3
当然,有网友辣评,HLE上它还是稍逊马斯克的Grok 4 Heavy一筹,但这个成绩,也足以让无数打工人“虎躯一震”了。
2025“AI杠杆”:人人都能当“超级个体”,打工人何去何从?
ChatGPT Agent这么炸裂,到底意味着什么?前OpenAI研究员Hyung Won Chung提了一个很有意思的概念——“AI杠杆”。他把AI比作是人类历史上有史以来最强大的“杠杆”,因为它结合了两种力量:
- 人力杠杆:AI智能体能替你干活,就像雇了个“超级打工人”。
- 代码杠杆:AI是纯软件,想复制多少就复制多少,不需要许可,无限扩展。
这意味着什么?OpenAI也认为,2025年之后,AI智能体将成为一种全新的“杠杆机制”。过去,团队规模化要靠“人海战术”,但人多了,沟通成本、摩擦也随之而来。而现在,有了AI杠杆,一个10人或20人的初创公司,可能借AI的力量,创造出媲美科技巨头的成就。
这种“超级个体”模式,或许将彻底重塑未来的企业组织架构。到时候,我们不再需要那么多重复性岗位,更多人可以凭借AI的力量,成为真正的“超人”,实现指数级增长。这对于求职者来说,无疑是巨大的挑战,但对于那些能驾驭AI的人来说,也是前所未有的机遇。
OpenAI背后的“华人之光”:牛人大起底!
值得一提的是,这次高能直播,还有两位华人学者同时出镜,他们就是OpenAI的“幕后英雄”:
- Zhiqing Sun(孙之清):这位仁兄2024年6月才加入OpenAI,但来头不小。他是卡内基梅隆大学的计算机科学博士,2019年北大计算机科学学士。别看他年轻,他可是Deep Research的研究负责人,o3/o4-mini、计算机使用智能体等核心项目都有他的身影。妥妥的“学霸+实干家”!1
- Casey Chu:这位老哥更是在2020年就加入了OpenAI,担任研究员。斯坦福大学计算数学硕士出身,但人家潇洒,博士中途就退学了。退学干嘛?跑去OpenAI“搞事情”了!他不仅是DALL·E 2的共同一作,还主导了GPT-4视觉输入初始原型的开发。简直是“AI界的扫地僧”!1
看到这些华人面孔在世界科技前沿发光发热,真是让人倍感骄傲啊!
最后,如果你是Pro、Plus或Team用户,现在就可以去ChatGPT的对话框下拉栏里,选择“Agent mode”开启体验了。Pro用户每月有400次额度,Plus和Team每月40次。赶紧去试试,感受一下AI“开挂”的力量吧!但请记住,未来已来,你的饭碗,真的要靠自己“卷”出来了!