TL;DR:
刚上线就想“秀肌肉”的ChatGPT Agent,万万没想到半路杀出个程咬金!一个24人的中国初创团队Genspark,直接在成本、速度、质量上把OpenAI“按在地上摩擦”,海外网友都看呆了,直呼:这波国产AI是“代差领先”啊!
AI圈最近可真是“活久见”系列!这边OpenAI刚“官宣”自家新一代AI智能体——ChatGPT Agent闪亮登场,号称能自主上网冲浪、搞定多步骤任务,眼看就要开启AI“打工人”新纪元。结果,还没来得及好好“嘚瑟”,就被远在东方的神秘力量给“截胡”了!是的,你没听错,一个只有24个人的中国初创团队,直接把Sam Altman家的“亲儿子”给“碾压”了!这剧情,简直比电影还精彩。
“打工人”ChatGPT Agent:排面儿有了,但“活儿”咋样?
先说说OpenAI这位新晋“打工人”——ChatGPT Agent。它可不是以前那个只会跟你“唠嗑”的AI了。现在,它能控制自己的网页浏览器,在一个**专属的“私人沙盒”**里上网、跑代码、做文档,简直就是个自带虚拟电脑的“全能小助手”1。用OpenAI官方的话说,它能“流畅地在推理和行动之间切换,从头到尾处理复杂的工作流程”。听起来是不是特带感?什么帮你买衣服、做PPT、规划膳食,甚至更新财务报表,它都能搞定。嗯,听着就像是那种“我全都要”的霸道总裁AI。
而且,OpenAI还信心满满地放出了“战绩报告”:在各种专业基准测试中,ChatGPT Agent表现那叫一个“遥遥领先”,什么“人类终极考试”准确率41.6%(比自家o3高出一大截)、数据科学任务表现“优于人类”等等,数据那是相当漂亮。有用户还秀出了它几分钟生成的英伟达财务分析报告,直呼“太夸张了!”甚至连PPT都能9分钟搞定,效果还“稍加修改即能达到实用水平”1。
但是,科技圈嘛,向来是“嘴炮”和“实测”两码事。很快,就有人发现,这Agent的实际表现嘛,有点“薛定谔的猫”。在一些更复杂的测试里,比如PaperBench、SWE-Bench,它的表现甚至还不如“老前辈”o3。有用户亲测让它分析Kaggle数据集并转PPT和Excel,结果是“没操作错误,但有些数据不对劲”——还得用户手动提醒它才发现问题。
“它虽然没有出现操作错误,但其中一些数据不太对劲。”——某ChatGPT Agent体验者 (我信你个鬼,明明就是AI在“偷懒”,还假装无辜!)
更扎心的是,外媒直接指出,它压根不是个“完备的问题解决型智能”,更像是一个**“复杂的高级模仿者”**。一旦任务超出它训练数据范围,立马“抓瞎”。想让它独立解决“网络靶场”的复杂网络操作?抱歉,直接“卡壳”,连给提示都没用。所以,有开发者直接“劝退”:“o3已经完全能满足需求,性价比很高,根本没必要启动一整套带浏览器和命令行界面的虚拟机。”言下之意:这Agent,有点“杀鸡用牛刀”的意思? 而且,相比Claude Code这类更灵活的专业工具,ChatGPT Agent的“沙盒”限制,让它在定制化和可组合性上显得有些“放不开手脚”。
国产“黑马”Genspark:24人团队,如何“掀翻”OpenAI?
就在OpenAI的“新打工人”还在忙着“找补”的时候,来自中国的“神秘力量”正式C位出道,直接给OpenAI来了一记**“王炸”**!
这匹国产“黑马”名叫Genspark,背后的公司是MainFunc。它的创始人来头可不小——前百度副总裁、小度科技CEO景鲲,人称“小度之父”2。这团队,总共才24个人,你敢信?但这24人,直接把OpenAI的“大招”给“秒”了!
怎么个“秒杀”法?MainFunc联合创始人兼CEO景鲲直接在X平台(推特)上放话了:他们用和OpenAI演示视频里一模一样的提示词,Genspark一次成功,耗时、成本都只是OpenAI的“几分之一”,而质量却“高出好几倍”!
“我从未想过会有这一天——作为一个只有24人的小初创公司,我们竟然能领先这么多……甚至领先于OpenAI……”——景鲲 (这哪里是领先,简直是“降维打击”啊,哥们儿!)
海外的AI产品负责人Shubham Saboo也忍不住站出来“认证”:“ChatGPT Agent被过度夸大了。Genspark和Manus AI在生成研究充分的人工智能演示文稿以及处理电子表格方面,早已遥遥领先。”更有海外用户直言不讳:“你们(Genspark)制作的幻灯片绝对是碾压级的第一名,其他产品根本难以企及。”
那么问题来了,这Genspark凭啥这么猛?它不仅是个“AI搜索引擎”,更把自己定位成**“超级智能体”(Super Agent)2。它的核心是AI Agent Engine**,一个多智能体协同工作的系统。想象一下,一堆各司其职的“AI打工人”组团帮你干活,那效率能不高吗?
而且,Genspark还有个独门绝技叫**“Sparkpages”,能根据用户需求实时生成定制化的网页内容,整合多个可信来源的信息,就像给你量身定制的“活页百科全书”。最牛的是,它还有“透明化思考过程”,能把AI的推理路径和决策逻辑清清楚楚地展示出来,让你知道它“为啥这么干”,这不比黑盒操作让人安心多了?再加上景鲲团队深耕中国市场多年的“本土化经验”,对用户痛点那可是“手术刀”般的精准洞察。难怪能快速抓住用户,上线9天ARR(年度经常性收入)就突破1000万美元,简直是“AI淘金热”里的“印钞机”**!
AI Agent“战国时代”:谁是真“王者”?
OpenAI的入局,无疑让AI Agent赛道变得更加“血腥”。但Genspark的“横空出世”也狠狠地扇了一巴掌:大厂光环再亮,也架不住小团队的**“极致内卷”和“超速迭代”**。
这背后折射出的,不仅仅是技术实力的较量,更是对用户需求理解、产品落地能力以及商业模式创新的全面PK。OpenAI的Agent更像是把复杂技术“打包”成对消费者友好的产品,牺牲了一部分定制化空间;而Genspark则在效率、成本和透明度上找到了突破口,直接击中了用户痛点。
当然,AI Agent仍处于“蛮荒时代”,大家都在摸索。但至少这场“开年大戏”告诉我们,AI领域从来没有绝对的“王者”,只有不断挑战、不断进化的“卷王之王”。这场“代理人之战”,才刚刚开始,好戏还在后头呢!