TL;DR:
OpenAI发布ChatGPT Agent,以端到端模型优势冲击AI Agent创业赛道,引发“大模型吃掉垂直应用”的激烈辩论。这场技术巨头与初创公司的较量,不仅是技术路线之争,更将重塑产业格局,并深刻影响人类的未来工作与社会伦理,预示着AI自主系统的新纪元。
北京时间7月18日凌晨,OpenAI再次掀起科技界的轩然大波,发布了备受瞩目的ChatGPT Agent。此举被视为其继文生图更新之后,又一次旨在“提前结束AI Agent创业竞赛”的战略性部署。ChatGPT Agent能够根据用户指令,自动规划并执行多步骤任务,调用多种工具,实现从数据抓取到表格生成、行程规划到酒店预订等复杂流程。这与当前许多AI Agent创业项目,特别是曾高调宣传通用AI Agent概念的Manus,所尝试的方向高度重合,甚至被直指“Manus 4个月前在宣传片中展示的,ChatGPT Agent现在都完成了”。1
OpenAI创始人山姆·阿尔特曼(Sam Altman)甚至表示,这是他首次“真正感受到AGI(通用人工智能)”,而OpenAI的研究人员则宣称ChatGPT Agent是迄今为止最强的AI Agent模型。这一重磅发布,立即在AI圈内激起千层浪,也引出了一个尖锐的问题:OpenAI的入局,是否意味着“Manus们”的末日?
巨头入局:AI Agent赛道的重塑之战
OpenAI将ChatGPT Agent定位为“一个模型”,而非一个独立产品。这暗示了其作为底层能力的战略意义。与依赖上下文管理和工具链编排的现有Agent系统不同,OpenAI训练了一个专用模型,旨在单一系统中完成任务规划、跨工具调用和文档生成等复杂流程,该模型目前归入o3系列。1
理想汽车创始人李想、知名投资人朱啸虎等行业领袖纷纷表达了对垂直应用创业空间的悲观预测。李想认为,在to C层面,掌握最强基座模型的企业(如OpenAI)将“吃掉一切”,因为“人工智能的本质是能力,能力强就可以吃掉一切”。朱啸虎则直言,大模型将“吃掉90%的Agent”。社交平台上,“无数初创公司悄然蒸发的声音”成为高赞评论,预示着一场残酷的洗牌。
然而,面对巨头的“碾压”,以Manus和Genspark为代表的华人AI Agent创业公司,选择了正面迎击。OpenAI发布会刚结束,Manus便在X上高调回应“Welcome to the game.”,并迅速发布了十余条与ChatGPT Agent的对比测试视频。测试结果显示,Manus在响应速度、任务完成度和输出美观度上均表现出优势,例如在旅游行程规划中生成带有目的地风格的海报,而非简单的行程表;在财务分析中提供包含图表与要点总结的完整演示文档,而非仅限于Excel文件。1 Genspark也分享了类似的对比,强调其在响应时间、成本和生成质量上的领先。这些初创公司试图通过更强的工程迭代能力和用户体验创新,为用户提供完成度更高、上手难度更低的Agent产品。
技术路线的底层较量:端到端与上下文工程
这场“生死之战”的深层根源,在于两种核心技术路线的较量:OpenAI的端到端(End-to-End)模型训练与初创公司的上下文工程(In-Context Learning)。
OpenAI的ChatGPT Agent强调的是底层模型能力的提升。通过专用的端到端训练,其在多项学术基准测试中取得了突破性进展。例如,在《人类的最后考试》(Humanity’s Last Exam)评估中,ChatGPT Agent的pass@1得分达到了41.6%,大约是OpenAI o3的两倍。在DSBench(数据科学任务)和SpreadsheetBench(电子表格编辑能力)测试中,其表现均大幅领先GPT-4o,甚至在某些数据分析任务中“明显优于人类水平”,被OpenAI内部评估为大致相当于“1至3年经验的投资银行分析师水平”23。这表明OpenAI致力于通过训练更强大的基座模型,赋予Agent更深层的推理、规划和跨工具协作能力。
相比之下,初创公司受限于技术和资金,更多地选择基于现有前沿大模型进行上下文工程和提示优化。Manus联合创始人季逸超明确表示,他们将继续押注于上下文工程,而非从零开始训练端到端智能体。他认为,利用GPT-3等模型强大的上下文学习能力,可以使团队在几小时而非几周内交付改进,并通过KV缓存等工程创新显著提升响应速度和成本效率。1 实践也证明,更好的提示词设计(prompting)或任务结构支持(scaffolding)确实能显著提升模型的性能,如Epoch AI的测试显示,ChatGPT Agent在数学题上通过16次尝试,正确率从27%大幅提升至49%1。这凸显了**“如何塑造上下文最终决定了你的智能体的行为方式”**的关键作用。
本质上,OpenAI希望通过“能力(能力强就可以吃掉一切)”来占领高地,而初创公司则试图通过“功能(场景化、垂直化)”和极致的工程优化来寻求生存和差异化。
产业生态的洗牌与新机遇
AI Agent的快速发展及其巨头化趋势,无疑将加速产业的洗牌。市场研究机构MarketsandMarkets预测,全球AI Agent市场将从2024年的51亿美元增长至2030年的471亿美元,年均复合增长率高达44.8% 1。Deloitte也预测,到2025年,25%的公司将试点智能体,到2027年这一比例将增至50% 1。这预示着一个巨大的市场机遇,但同时也是一场残酷的淘汰赛。
“大模型会吃掉90%的Agent”的论断虽具警示意义,但并非绝对。AI Agent的未来,很可能走向**“基座模型+垂直应用+极致体验”**的多元生态。
- 专业化与垂直化深度:即便OpenAI Agent能力强大,但在特定行业或专业领域,深入理解行业知识、定制化工作流和数据整合能力,仍是初创公司的机会。例如,在医疗、法律、金融等强监管和高专业门槛的领域,需要高度垂直化的Agent解决方案。
- 用户体验与产品创新:如Manus和Genspark所示,优化最终输出的质量、速度、美观度,提供更友好的界面和更低的上手难度,是差异化竞争的关键。OpenAI目前的Agent在完成度上仍显“粗糙”,这为注重用户体验的初创公司留下了空间。
- 集成与协作:Agent的价值在于其与各种工具和服务的集成能力。初创公司可以专注于构建高质量的Agent连接器(Connectors),或是开发能够高效协同多个Agent完成更复杂任务的编排系统,成为Agent生态中的“胶水”层。
- 边缘与隐私计算:随着Agent处理任务日益复杂和涉及敏感数据,如何在本地或边缘设备上运行Agent以保护隐私,以及开发针对特定数据安全需求的Agent,也将成为新的增长点。
AI Agent的社会深描与伦理挑战
AI Agent的崛起,不仅是技术和商业的变革,更是对人类社会结构、工作模式乃至伦理观念的深层冲击。它将AI从“信息提供者”推向了“行动执行者”,让AI抢夺人类工作真正成了现实。
微软CEO萨蒂亚·纳德拉曾透露,微软20%到30%的代码都由AI生成。金融科技公司Klarna的AI Agent在一个月内处理了公司2/3的客服聊天工作,相当于700名全职人工客服的工作量1。这种效率的提升伴随着大规模的工作岗位重塑,尤其是重复性高、流程化的知识工作。未来,人类可能需要更多地转向创造性、策略性、情感交互类的工作,人机协作将成为主流,而非简单的替代。
然而,AI Agent的自主行动能力也带来了前所未有的伦理与安全挑战。ChatGPT Agent可以访问网站下单购物、自动填写信用卡信息,甚至访问用户的日历、电子邮件、云盘等隐私信息3。这意味着用户将自己的私人信息交给了“黑盒”,更容易受到攻击或滥用。山姆·阿尔特曼本人也发出了警告,要求用户审慎使用Agent,建议“只授予Agent完成任务所必需的最低限度访问权限”,并表示他不会将ChatGPT Agent用于高风险或涉及大量个人信息的场景13。OpenAI在发布会上强调了安全措施,包括明确的用户同意、主动监督(Watch Mode)和主动风险缓解(Proactive risk mitigation)3,但这并未完全消除公众的担忧。
未来图景:人机共存与价值重构
AI Agent的未来,指向一个人机共生的社会。我们正从工具使用时代迈向代理协作时代。AI不再仅仅是提高效率的工具,而是能够自主思考、规划、执行的“数字代理人”。这要求我们重新定义“工作”的内涵,从“完成任务”转变为“管理智能代理”,从“知识积累”转变为“策略制定与监督”。
从哲学思辨的角度看,Agent的崛起将模糊“人类代理”与“AI代理”的边界,引发对决策权、责任归属的深刻探讨。当Agent自主下单、安排日程甚至进行金融交易时,谁来为潜在的错误或不当行为负责?这需要法律、伦理和社会规范的同步演进。
商业层面,OpenAI已开始探索将支付结账系统整合到ChatGPT中,计划通过佣金模式实现商业化1。这不仅是Agent技术能力的外延,更是AI模型向生态平台演进的关键一步,预示着AI将更深层地嵌入商业交易和日常生活中。
最终,Agent的未来将是效用最大化与风险可控性之间的动态平衡。它将推动人类文明进入一个由高级自主智能体辅助甚至部分主导的新阶段。人类的关键价值将不再是机械执行,而是定义目标、设定价值观、提供创意和进行伦理判断。那些能够有效利用、管理和与AI Agent协同工作的人和组织,将成为未来竞争的赢家。而对于科技公司而言,除了技术深度和商业敏锐,如何负责任地引导这一技术,构建一个安全、普惠、可持续的智能生态,将是其长期成功的真正试金石。