智能体浪潮:OpenAI迟到的入场与AI新纪元的深层变革

温故智新AIGC实验室

TL;DR:

OpenAI智能体虽姗姗来迟,但其融合视觉与推理能力的Agent模式,标志着AI从被动工具向主动协作伙伴的关键跃迁。这一转变正加速重塑产业竞争格局,考验着生态开放性与成本效率,并预示着人类生活与工作范式即将迎来深刻变革。

当OpenAI的ChatGPT智能体(Agent)揭开面纱,业界的回应并非如ChatGPT初问世时那般石破天惊,反而伴随着些许意料之中的平淡。这份“迟到”感,源于在此之前,市场已不乏先行者的身影,如Manus、Minimax、Kimi乃至Perplexity AI,它们以各自的路径探索着AI代理的广阔天地。然而,这份看似缺乏“惊喜”的发布,实则蕴藏着AI从“对话”迈向“行动”的深刻技术跃迁,以及对未来产业生态、商业模式乃至人类社会深远影响的全面预演。

技术跃迁:Agent的本质与能力边界

OpenAI此次推出的Agent模式,核心突破在于将大模型的“思考”与“行动”能力进行了深度整合,打破了传统Chatbot仅限于“对话”的局限。它不再仅仅回答问题,而是能够理解复杂任务、自主规划步骤、调用外部工具并执行行动。从技术层面看,这得益于两大核心研究成果的融合:Operator(视觉层交互代理)赋予了AI在图形界面中操作鼠标、输入、截图的“手脚”,而_Deep Research_(多步骤网页推理)则构筑了其“大脑”,使其能高效阅读密集型网页信息、提取关键内容并进行多步骤推理12

具体而言,ChatGPT Agent通过三大模块工具实现了这一闭环:

  • 文本浏览器(Text-based Browser):高效处理网页阅读,进行信息提取。
  • 可视化浏览器(Visual Browser):在图形界面中模拟用户操作,实现点击、输入等。
  • 终端工具(Terminal):运行代码、生成文件、调用API、集成其他系统。

这种能力组合使得Agent能够执行一系列高维复杂任务,例如从旅行规划、PPT制作到图像生成与在线购物的全流程。演示中,Agent不仅能根据指令完成婚礼礼服挑选、贴纸设计与订购,甚至能从Google云中提取数据、分析并生成专业的PPT图表,并在首次生成后自主优化视觉呈现3。在SpreadsheetBench平台上的测试显示,ChatGPT Agent在处理基于真实世界场景的电子表格编辑任务时,性能较GPT-4o提升超过一倍,达到行业领先水平2。Sam Altman对此表示,Agent代表着AI系统能力的新高度,能够借助自身的“计算机”完成出色的复杂任务4

竞速与博弈:AI Agent的产业新格局

OpenAI将Agents视为其“五级路线图”中的第三级,是AI从工具属性向创新属性跃升的关键一环。然而,此次OpenAI的入场,显然失去了ChatGPT时代“先发制人”的优势。Manus、MiniMax、Kimi等公司,甚至Perplexity AI,已率先推出通用Agent形态的产品,其中不乏通过整合现有基础大模型(如Claude)来快速实现功能的“套壳”产品,借此在市场中占据了早期生态位。Manus的通用Agent产品曾一夜之间引发抢购狂潮,账号甚至被炒到百万高价4

这种“起大早,赶晚集”的局面,揭示了AI Agent赛道的白热化竞争和路径多样性。一方面,通用大模型厂商如OpenAI正试图从底层模型能力向上拓展,构建“All in One”的统一智能体系统1。另一方面,应用层公司则通过封装和集成现有模型,快速实现特定场景的Agent功能,抢占市场份额。

“技术强大如OpenAI,也难免有卷不过的时候。”

这种市场动态促使OpenAI开始反思其一贯的“闭源策略”的局限性。Deepseek等竞品以远低于OpenAI的训练成本提供接近的性能,并积极拥抱开源,吸引了英伟达、英特尔、亚马逊、微软、AMD等巨头的接入。这不仅侵蚀了OpenAI赖以商业化的闭源API市场,更预示着成本优势与生态优势间的内在关联在AI时代依然适用。未来的竞争,将不再仅仅是模型性能的比拼,更是围绕成本效率、开放生态与场景落地能力的综合较量。

抵达未来:Agent重塑人类协作与生活范式

AI Agent的出现,不仅仅是技术能力的简单提升,更是AI从“被动工具”向“主动代理”的质变,预示着人类与技术关系的深刻重构。正如互联网改变了90后一代的生活方式,AI Agent将对“阿尔法世代”乃至更广泛的人群产生颠覆性影响。

从商业化角度看,Agent的广泛应用必然涉及跨应用的调用与权限管理。正如文章所指,这就像早期淘宝需要说服店家上线一样,AI时代应用间的互通互联只是时间问题,但其背后的数据安全、隐私保护和互操作性标准将是重要的商业与技术挑战。OpenAI已为此采取了明确的用户确认、主动拒绝高风险任务(如金融交易、敏感法律互动)以及禁用记忆功能以防止滥用等安全措施2

然而,Agent的想象力远不止于此。它将加速工作流自动化,显著提升生产力。设想未来,一个对星座塔罗感兴趣的上班族,Agent可以直接搜集、翻译、摘要多语言资料,制定学习计划,甚至生成营销文案和海报,助力副业的快速启动。在家庭场景中,具身智能与Agent的结合将创造前所未有的便利:训练有素的Agent机器人不仅能接送孩子,还能智能调控家居环境,甚至指挥炒菜机器人备好晚餐,真正实现“智能管家”的愿景。

Agent不仅是AI从“思考”到“行动”的拐点,更是其从“被动”到“主动”的拐点。当AI逐步拟人化,能够自主分析、规划、执行复杂任务时,人类的职责将更多地转向创意、决策和宏观管理,而重复性、流程性的工作将大规模被Agent接管。这无疑将深刻影响就业结构,催生新的职业,并对教育体系提出更高要求。人类的命运,也将因AI从工具化向代理化、伙伴化的演进,而迎来彻底的改写。

引用


  1. ChatGPT智能体正式发布,多个创业赛道昨夜无眠 - 量子位·量子位·白交 雷刚·2025/7/18·检索日期2025/7/18 ↩︎ ↩︎

  2. 隆重推出ChatGPT 智能体:连接研究与实践 - OpenAI·OpenAI官方网站·2025/7/18·检索日期2025/7/18 ↩︎ ↩︎ ↩︎

  3. 2025,AI Agent还在起跑线 - 36氪·36氪·2025/7/18·检索日期2025/7/18 ↩︎

  4. OpenAI发布ChatGPT Agent:能主动思考、自选工具,智能体赛道大 ...·华尔街见闻·2025/7/18·检索日期2025/7/18 ↩︎ ↩︎