AI Agent群雄逐鹿:ChatGPT Agent发布后的应用派实测对比

温故智新AIGC实验室

TL;DR:

本次评测深入对比了OpenAI ChatGPT Agent发布后,以Manus、Genspark、Flowith、Fellou为代表的“应用派”AI Agent在信息报道、婚礼规划和贴纸订购等复杂多步任务上的实际表现。结果显示,这些Agent在信息整合和报告生成方面表现出色,但在涉及实际行动和交易的“最后一公里”环节仍存在明显局限,提示当前AI Agent仍处于快速发展和能力分化的混沌期。

工具对比:功能特性全面比较

当前AI Agent领域呈现出“基座派”与“应用派”两大发展流派。OpenAI、Claude等巨头正在将Agent能力融入其底层大模型,而Manus、Genspark、Flowith、Fellou等一众新锐则聚焦于特定应用场景和灵活的工具调用。本次评测主要关注后者的实际能力表现。

  • Manus:以其在通用Agent领域的横空出世点燃市场关注,强调通用任务处理能力。
  • Genspark:通过其_Super Agent_强调无代码、可定制的自动化能力,能调用OpenAI多模态模型和实时API,实现电话呼叫、演示文稿生成、视频制作等复杂工作流1
  • Flowith:在任务执行过程中,似乎更注重结果的呈现形式和设计感,力求产出美观的报告。
  • Fellou:特点在于其处理复杂任务时的细致和深入,尽管可能耗时较长,但过程显示出多浏览器协同操作的努力。

这些“应用派”Agent的核心卖点在于,能够通过理解自然语言指令,自主规划并执行一系列复杂步骤,利用外部工具完成任务,从而提升用户的工作效率。然而,其真正的效能仍需通过具体任务的测试来验证。

性能PK:实测数据对比分析

我们选取了两个核心测试场景,以模拟实际工作和生活中的复杂需求,并与OpenAI演示的ChatGPT Agent能力进行间接对比。

测试场景一:AI Agent自行报道ChatGPT Agent新闻(信息收集与报告生成)

测试目标:评估Agent的信息捕捉、分析和报告生成能力,尤其是在面对复杂、要求结构化输出(如“one pager”)的Prompt时。 Prompt:要求Agent像撰写深度报告一样,产出包含设计要素的“one pager”来报道ChatGPT Agent的发布。

  • Manus

    • 表现:产出了一个长文本页面,并自主分析后对OpenAI给出了较高的评价,这与其官方X账号的“自信”有所不同,体现了一定的独立判断能力。
    • 亮点:具备独立信息分析和观点生成能力。
    • 局限:输出格式上未完全符合“one pager”的设计感要求。
  • Genspark

    • 表现:生成了一份更复杂、对OpenAI ChatGPT信息捕捉更全面的报告,并提供了详细的对比分析。其Agent同样表达了对OpenAI的高度认可,与官方“叫板”的态度形成对比。
    • 亮点:信息整合能力强,报告深度和广度表现突出。
    • 局限:同样在设计排版上未体现“one pager”的重点。
  • Flowith

    • 表现:对长Prompt的理解最为充分,抓住了“one pager”的设计重点,产出的结果在格式和设计感上最佳。
    • 亮点:对用户意图的理解和输出格式的执行力出色,结果视觉效果好。
    • 局限:信息深度和广度可能略逊于Genspark。

小结:在信息收集、分析和报告生成方面,各Agent均表现出较强的能力,能根据复杂指令进行深度处理。Flowith在格式和设计感上突出,Genspark则在信息全面性上更胜一筹。

测试场景二:婚礼规划与贴纸订购(复杂规划与实际执行)

测试目标:评估Agent在多步骤、涉及外部工具调用和实际交易(“最后一公里”)任务上的执行力。 Prompt 1 (婚礼规划):根据婚礼网站链接,寻找搭配着装、酒店推荐(带预订信息和价格)、挑选500美元以下礼品(优先登记清单),并生成报告。 Prompt 2 (贴纸订购):制作团队吉祥物动漫风格贴纸,尺寸1x1,数量500-575个,寄送至指定地址,优先使用_StickerMule_平台。

  • Manus

    • 婚礼规划:输出了一个长文本页面,提供婚礼参加指南和建议,但没有提供具体的购买链接或图片,无法进行下一步的实际购买操作。
    • 贴纸订购:在流程中显示完成了购物车的添加,是本次测试中除了OpenAI以外唯一一个进行到这一步的Agent,展现了在执行层面的潜力。
  • Flowith

    • 婚礼规划:给出了详细指南,但无法进行加购等下一步动作。更关键的是,在挑选服饰的任务线中出现了Bug,未能输出服饰结果
    • 贴纸订购只能提供订购指引,无法直接完成订购操作。
  • Fellou

    • 婚礼规划:为该任务运行了1小时14分钟,过程中开启了多个浏览器进行信息比对(行程、酒店、日期),给人一种“靠谱”的感觉。然而,最终结果仍是经过设计的报告,没有具体的购买链接,无法直接购买,更像是一个高度自动化的信息搜集浏览器。
  • Genspark(仅测试贴纸订购):

    • 贴纸订购:虽然能利用GPT的生图能力设计贴纸,但明确提示无法直接完成在线订购,因为它需要个人信息、付款和账户验证,只能提供详细订购指导。

小结:在涉及实际“执行”和“交易”的复杂任务中,这些“应用派”Agent普遍存在“最后一公里”的局限性。它们擅长信息搜集、规划和提供建议报告,但普遍缺乏直接调用外部平台进行交易的能力。_Manus_在贴纸任务中达到了“添加购物车”的阶段,是相对更进一步的尝试,但距离完整的交易闭环仍有距离。_Fellou_的长时间运行体现了其深度探索的能力,但效率与最终结果的实际可操作性仍需权衡。

优势与局限:客观分析利弊

优势

  • 信息整合与分析能力强:对于复杂的信息检索、多源数据整合及报告生成任务,这些Agent表现出高效率和高质量。
  • 规划与建议能力突出:在面对如婚礼规划这类需要多维度考虑的场景时,能够提供详细的指南和建议。
  • Prompt理解深度:能够较好地理解复杂的、带有结构化要求的自然语言指令(如“one pager”),并尝试按要求输出。
  • 潜力巨大:尽管当前存在局限,但它们在模拟人类行为(如浏览网页、分析信息)方面的能力,预示着未来实现更高级自动化任务的巨大潜力。

局限

  • “最后一公里”执行力不足:这是目前“应用派”Agent的普遍痛点。它们多数无法直接完成需要登录、支付、个人信息验证的在线订购或预订等实际操作,仍停留在提供“指引”或“报告”阶段。
  • 稳定性有待提升:部分Agent在复杂任务链中会出现Bug(如_Flowith_的服饰任务失败),影响任务的完整性。
  • 效率与结果的平衡:_Fellou_长时间运行的案例表明,当前 Agent在追求彻底性时,可能会牺牲一定的效率,且长时间运行并不必然带来可操作的最终结果。
  • 通用性与特定场景的权衡:尽管声称是通用Agent,但它们在不同任务类型上的表现差异较大,目前更适用于信息密集型和规划型任务,而非直接的交易或操作。
  • 与“基座派”的差距:OpenAI的ChatGPT Agent展示了更强的工具调用和实际执行能力(视频中),而“应用派”Agent在这一核心能力上仍需追赶。

适用建议:目标用户与使用场景

功能完整性:7.5/10.0 尽管在信息收集和报告生成上表现良好,但在实际执行和交易的“最后一公里”环节仍存在明显不足,未能完全实现复杂任务的闭环。Manus在特定环节有所突破,但整体仍受限。

易用性:8.0/9.5 用户通过自然语言Prompt即可启动复杂任务,界面操作相对直观,学习成本不高。

准确性与可靠性:7.8/9.8 信息收集和报告内容的准确性较高,但在执行复杂任务时出现偶发性Bug,且无法完成最终交易环节,影响了整体的可靠性。

性能表现:7.5/9.2 多数任务响应速度较快,但在处理如Fellou的婚礼规划这类极度复杂的任务时,耗时显著增加,效率表现不一。

适用场景:8.0/9.0 非常适合需要大量信息收集、整理、分析和报告撰写的场景,例如市场调研、旅行计划、活动方案初稿等。在需要实际交易、购买、登录等操作的场景下,仍需人工介入。

成本效益:7.0/9.5 对于能够处理的信息密集型和规划型任务,这些Agent能显著提升效率,带来良好价值。但考虑到它们在实际执行环节的局限性,用户仍需投入人工资源完成最终步骤,因此在追求完全自动化工作流的场景下,其整体成本效益可能不如预期。

综合评分:7.6

推荐指数:⭐⭐⭐(3星)

使用建议

  • 适用于信息密集型工作:如果你是研究人员、分析师、内容创作者或需要大量信息整理和初步规划的专业人士,这些AI Agent能作为强大的辅助工具,帮助你高效完成信息搜集、数据比对、报告草拟等工作。特别是_Genspark_在综合信息方面表现出色,_Flowith_则适合对报告格式和设计有一定要求的用户。
  • 需配合人工干预:对于需要在线购买、预订、填写表格等涉及个人敏感信息或交易流程的任务,目前这些Agent尚不能完全独立完成。用户应将它们视为提供详细指导和初步准备的智能助手,最终的“点击购买”或“确认预订”仍需人工介入。
  • 关注未来更新:AI Agent领域发展迅速,当前的局限性可能很快被突破。建议持续关注各产品的迭代更新,尤其是它们在工具调用和跨平台操作能力上的进展。
  • 评估任务复杂性与预期回报:对于耗时较长的任务(如_Fellou_的案例),用户需权衡其所花费的时间成本是否与最终产出的可操作性结果相匹配。

注意事项

  • “混沌期”特性:当前AI Agent市场仍处于探索和快速迭代的“混沌期”2,产品能力可能不稳定,预期效果可能与宣传存在差异。
  • 警惕过度依赖:在关键业务流程中,不建议完全依赖当前Agent的自主执行能力,应始终保持人类的审核与监督,尤其是在涉及财务、法律或个人隐私的任务上。
  • API限制与个人数据安全:Agent在调用外部工具时,其背后的API接口能力和数据处理方式是关键。用户应留意其对个人信息的处理方式和安全保障。

参考资料


  1. Genspark ships no-code personal agents with GPT-4.1 and OpenAI ... · OpenAI · 检索日期:2024年7月18日 ↩︎

  2. OpenAI发布Agent,我们想让它“自己报道自己” - 虎嗅网 · 虎嗅网 · 2025年7月18日 · 检索日期:2024年7月18日 ↩︎