OpenAI新Agent首秀惨遭“截胡”？中国AI团队“杀疯了”直接“碾压”！

TL;DR：

刚上线就想“秀肌肉”的ChatGPT Agent，万万没想到半路杀出个程咬金！一个24人的中国初创团队Genspark，直接在成本、速度、质量上把OpenAI“按在地上摩擦”，海外网友都看呆了，直呼：这波国产AI是“代差领先”啊！

AI圈最近可真是“活久见”系列！这边OpenAI刚“官宣”自家新一代AI智能体——ChatGPT Agent闪亮登场，号称能自主上网冲浪、搞定多步骤任务，眼看就要开启AI“打工人”新纪元。结果，还没来得及好好“嘚瑟”，就被远在东方的神秘力量给“截胡”了！是的，你没听错，一个只有24个人的中国初创团队，直接把Sam Altman家的“亲儿子”给“碾压”了！这剧情，简直比电影还精彩。

“打工人”ChatGPT Agent：排面儿有了，但“活儿”咋样？

先说说OpenAI这位新晋“打工人”——ChatGPT Agent。它可不是以前那个只会跟你“唠嗑”的AI了。现在，它能控制自己的网页浏览器，在一个**专属的“私人沙盒”**里上网、跑代码、做文档，简直就是个自带虚拟电脑的“全能小助手”¹。用OpenAI官方的话说，它能“流畅地在推理和行动之间切换，从头到尾处理复杂的工作流程”。听起来是不是特带感？什么帮你买衣服、做PPT、规划膳食，甚至更新财务报表，它都能搞定。嗯，听着就像是那种“我全都要”的霸道总裁AI。

而且，OpenAI还信心满满地放出了“战绩报告”：在各种专业基准测试中，ChatGPT Agent表现那叫一个“遥遥领先”，什么“人类终极考试”准确率41.6%（比自家o3高出一大截）、数据科学任务表现“优于人类”等等，数据那是相当漂亮。有用户还秀出了它几分钟生成的英伟达财务分析报告，直呼“太夸张了！”甚至连PPT都能9分钟搞定，效果还“稍加修改即能达到实用水平”¹。

但是，科技圈嘛，向来是“嘴炮”和“实测”两码事。很快，就有人发现，这Agent的实际表现嘛，有点“薛定谔的猫”。在一些更复杂的测试里，比如PaperBench、SWE-Bench，它的表现甚至还不如“老前辈”o3。有用户亲测让它分析Kaggle数据集并转PPT和Excel，结果是“没操作错误，但有些数据不对劲”——还得用户手动提醒它才发现问题。

“它虽然没有出现操作错误，但其中一些数据不太对劲。”——某ChatGPT Agent体验者（我信你个鬼，明明就是AI在“偷懒”，还假装无辜！）

更扎心的是，外媒直接指出，它压根不是个“完备的问题解决型智能”，更像是一个**“复杂的高级模仿者”**。一旦任务超出它训练数据范围，立马“抓瞎”。想让它独立解决“网络靶场”的复杂网络操作？抱歉，直接“卡壳”，连给提示都没用。所以，有开发者直接“劝退”：“o3已经完全能满足需求，性价比很高，根本没必要启动一整套带浏览器和命令行界面的虚拟机。”言下之意：这Agent，有点“杀鸡用牛刀”的意思？ 而且，相比Claude Code这类更灵活的专业工具，ChatGPT Agent的“沙盒”限制，让它在定制化和可组合性上显得有些“放不开手脚”。

国产“黑马”Genspark：24人团队，如何“掀翻”OpenAI？

就在OpenAI的“新打工人”还在忙着“找补”的时候，来自中国的“神秘力量”正式C位出道，直接给OpenAI来了一记**“王炸”**！

这匹国产“黑马”名叫Genspark，背后的公司是MainFunc。它的创始人来头可不小——前百度副总裁、小度科技CEO景鲲，人称“小度之父”²。这团队，总共才24个人，你敢信？但这24人，直接把OpenAI的“大招”给“秒”了！

怎么个“秒杀”法？MainFunc联合创始人兼CEO景鲲直接在X平台（推特）上放话了：他们用和OpenAI演示视频里一模一样的提示词，Genspark一次成功，耗时、成本都只是OpenAI的“几分之一”，而质量却“高出好几倍”！

“我从未想过会有这一天——作为一个只有24人的小初创公司，我们竟然能领先这么多……甚至领先于OpenAI……”——景鲲（这哪里是领先，简直是“降维打击”啊，哥们儿！）

海外的AI产品负责人Shubham Saboo也忍不住站出来“认证”：“ChatGPT Agent被过度夸大了。Genspark和Manus AI在生成研究充分的人工智能演示文稿以及处理电子表格方面，早已遥遥领先。”更有海外用户直言不讳：“你们（Genspark）制作的幻灯片绝对是碾压级的第一名，其他产品根本难以企及。”

那么问题来了，这Genspark凭啥这么猛？它不仅是个“AI搜索引擎”，更把自己定位成**“超级智能体”（Super Agent）²。它的核心是AI Agent Engine**，一个多智能体协同工作的系统。想象一下，一堆各司其职的“AI打工人”组团帮你干活，那效率能不高吗？

而且，Genspark还有个独门绝技叫**“Sparkpages”，能根据用户需求实时生成定制化的网页内容，整合多个可信来源的信息，就像给你量身定制的“活页百科全书”。最牛的是，它还有“透明化思考过程”，能把AI的推理路径和决策逻辑清清楚楚地展示出来，让你知道它“为啥这么干”，这不比黑盒操作让人安心多了？再加上景鲲团队深耕中国市场多年的“本土化经验”，对用户痛点那可是“手术刀”般的精准洞察。难怪能快速抓住用户，上线9天ARR（年度经常性收入）就突破1000万美元，简直是“AI淘金热”里的“印钞机”**！

AI Agent“战国时代”：谁是真“王者”？

OpenAI的入局，无疑让AI Agent赛道变得更加“血腥”。但Genspark的“横空出世”也狠狠地扇了一巴掌：大厂光环再亮，也架不住小团队的**“极致内卷”和“超速迭代”**。

这背后折射出的，不仅仅是技术实力的较量，更是对用户需求理解、产品落地能力以及商业模式创新的全面PK。OpenAI的Agent更像是把复杂技术“打包”成对消费者友好的产品，牺牲了一部分定制化空间；而Genspark则在效率、成本和透明度上找到了突破口，直接击中了用户痛点。

当然，AI Agent仍处于“蛮荒时代”，大家都在摸索。但至少这场“开年大戏”告诉我们，AI领域从来没有绝对的“王者”，只有不断挑战、不断进化的“卷王之王”。这场“代理人之战”，才刚刚开始，好戏还在后头呢！

引用

隆重推出ChatGPT 智能体：连接研究与实践·OpenAI·（2025/7/18）·检索日期2025/7/18 ↩︎ ↩︎
Genspark：AI Agent 赛道的差异化突围者 | AI 智能体·53AI·（2025/05/22）·检索日期2025/7/18 ↩︎ ↩︎