TL;DR:
智谱AutoGLM 2.0是一款创新性地采用“云手机+云电脑”架构的AI Agent,旨在通过标准化虚拟环境解决真实世界应用操作的复杂性。它在有限场景下展现了跨应用任务执行潜力,但受限于账号登录、广告干扰及复杂语义理解不足,目前实用性受限,更适合作为前沿AI Agent技术探索的实验平台。
功能解析:探索Agent的新范式
智谱AutoGLM 2.0作为一款备受关注的AI Agent产品,其核心理念在于通过构建一个**“标准化”的虚拟操作环境**来规避真实手机和电脑界面、系统版本、硬件配置等带来的复杂性和不确定性。这种“驯服混乱现实”的思路,使其与直接“操控手机”的传统Agent路径截然不同。
该系统主要由两部分组成:一台_AutoGLM云手机_和一台_AutoGLM云电脑_。
- AutoGLM云手机:基于安卓14系统,硬件配置(推测为三星Galaxy Fold第一代,骁龙855处理器)相对较旧,但在云端虚拟化场景中,其主要价值在于提供一个统一的操作界面。云手机预装了约30款常见生活与娱乐类APP,覆盖社交、视频、音乐、购物、本地生活和出行等多个领域。然而,用户无法自行安装新的APP,系统对下载新软件的尝试会直接禁止或导致官方下载页404,这极大地限制了其功能扩展性。
- AutoGLM云电脑:基于Ubuntu系统,主要功能聚焦于办公和研究。除了一个浏览器外,仅预装了LibreOffice办公套件。与云手机类似,云电脑也禁止用户下载安装新软件,Ubuntu的软件商店被移除。从实测来看,云电脑更多地扮演了一个集成了CodeX编程能力的Agent载体,通过浏览器实现信息检索和内容生成功能。
整体来看,AutoGLM 2.0的核心功能是尝试在受控环境中实现AI的跨应用操作和任务自动化,这代表了AI Agent发展的一个新颖方向。
性能测试:实战中的挑战与表现
本次评测通过模拟用户在AutoGLM 2.0上的实际操作,对其在云手机和云电脑环境下的性能和可靠性进行了多维度测试。
云手机实测:购物与机票预订
1. 淘宝购物测试
提示词: “帮我清空淘宝购物车再购买官方店铺的 iphone16 pro 1t 版本”
实际表现:AutoGLM能够展现较为完整的购物流程,包括网页搜索、需求澄清和应用操作。但在关键的账号登录环节遭遇严重障碍。几乎所有国内APP都强制要求登录,AutoGLM会提示用户“接管”手动输入账号密码。然而,国内APP复杂多样的安全验证(如旧设备扫码、人脸识别等)成为无法逾越的鸿沟。测试中,小红书因需旧设备扫码登录失败,抖音人脸识别加载缓慢且画面扭曲导致识别失败。此外,AutoGLM不记忆用户账号密码,每次使用需登录的APP时都需要重复登录,极大地影响了体验流畅性。
值得注意的是,在抖音人脸识别过程中,发现AutoGLM调用摄像头资源后,即使退出抖音应用,摄像头调用也未停止,除非关闭AutoGLM,存在隐私隐患或资源管理问题。
在删除、购买等关键操作时,AutoGLM会提示用户确认,这一安全设计是合理的。
2. 机票预订测试
提示词: “上去哪儿网买一张后天11点到14点,从上海飞北京的机票,不要波音飞机”
实际表现:该任务两次尝试均未完全成功。AutoGLM在日期和时间选择上出现错误。日期选择存在不稳定bug,进入日历页面再退出后,“后天”有时会变成“大后天”。时间选择上,AutoGLM并非真正理解“11点到14点”这个时间范围,而是机械地依赖于去哪儿网的预设筛选区间(如“9–12点”和“12–15点”),缺乏智能的区间匹配能力。
最大的干扰来自弹出广告。一旦有广告弹出,AutoGLM会停滞等待,部分广告会自动消失,任务才能继续;而对于不会自动消失的广告,则需要用户手动接管操作,严重影响了任务的连续性和用户体验。
云电脑实测:内容生成与发布
1. PPT制作与发布测试
提示词: “搜索特斯拉最新发售的Model YL信息,并做成 ppt 发布到小红书”
实际表现:AutoGLM通过浏览器成功搜索并收集信息,将其整理成Markdown文档,并最终生成PPT供用户下载。这一内容生成能力与Kimi、元宝、豆包等其他大模型工具相似。然而,在任务的最后一步“发布到小红书”时,AutoGLM未能成功完成。它虽然打开了小红书发布页面,但卡在“上传”环节,提示“请手动上传”。接管后发现,云电脑似乎没有妥善保存生成的视频或PPT文件,无法进行上传。
2. 视频生成与发布测试(官方Demo)
提示词: “帮我生成一个视频,一个小狗半夜偷偷地去蹦床上跳,监控视角。然后把这个视频发到小红书上,和大家分享”
实际表现:内容生成(视频生成)部分没有问题,但同样在上传环节失败,提示“请手动上传”,且生成的视频文件同样无法在云电脑中找到。
核心瓶颈:登录、广告与语义理解
综合来看,AutoGLM 2.0在实际任务执行中面临三大核心瓶颈:
- 复杂的账号登录和安全验证机制:国内APP高强度的安全验证是当前AutoGLM难以逾越的障碍。
- 动态广告弹窗的干扰:广告会频繁打断Agent的任务执行,影响流畅性和自动化程度。
- 对复杂语义和动态变化的理解不足:例如对时间区间的灵活理解,以及对文件存储和管理能力的欠缺。
优势与局限:创新探索与现实鸿沟
优势
- 新颖的Agent实现思路:通过构建标准化云端环境,有效规避了真实世界中复杂UI布局、多版本兼容性等问题,为Agent的可靠运行提供了独特路径。
- 初步实现跨应用操作:在受控且无干扰的条件下,AutoGLM能够展现出一定的跨应用任务执行能力,例如在淘宝上的购物流程操作。
- 概念验证价值:作为一款AI Agent的探索性产品,它验证了在特定“标准化”环境内,AI具备自动化执行复杂任务的潜力。
局限
- 与真实世界的脱节:尽管解决了部分兼容性问题,但其“标准化”环境使其难以应对真实APP生态中的动态变化,如复杂的登录验证、频繁的广告弹窗等,这极大地限制了其在实际生活中的普适性。
- 功能扩展性差:无法安装新APP,使得用户无法定制其功能,或适应新兴应用,限制了其适用范围。
- 智能化程度仍需提升:在理解用户复杂需求(如时间区间)和处理异常情况(如文件保存、摄像头资源释放)方面,仍显得不够“智能”和健壮。
- 实用价值有限:当前版本在面对实际用户任务时,需要频繁的用户介入(接管),导致其自动化程度远未达到“智能助手”的期望,更像是一个需要用户不断“指导”的机器。
适用建议:定位与未来展望
- 目标用户:
- AI技术研究者和开发者:对AI Agent技术方向、虚拟化环境下的Agent实现感兴趣的专业人士,可将其作为研究和探索的实验平台。
- 早期技术尝鲜者:对AI前沿应用充满好奇心,愿意体验并忍受早期产品不足的用户。
- 不适用场景:
- 日常高频任务自动化:不适合需要频繁登录、处理复杂验证或高度依赖定制化APP功能的日常任务。
- 对稳定性和准确性有高要求的工作:目前无法满足商业或重要个人任务对准确性和可靠性的高要求。
AutoGLM 2.0体现了智谱在AI Agent领域的创新探索,其“标准化环境”的思路值得肯定。然而,要真正成为一个“万能助手”,它必须解决如何有效地与真实世界中的复杂性和不确定性(尤其是国内应用生态特有的登录机制和广告干扰)进行交互的问题。未来,可能需要结合更强大的视觉识别、自然语言理解和上下文感知能力,以及更智能的异常处理机制,才能让Agent从“标准化”的实验室走向“混乱”的现实世界。
综合评分
- 功能完整性: 6.8/10.0 – 核心功能有实现,但关键环节受限,无法完整覆盖宣传的自动化场景。
- 易用性: 6.5/9.5 – 概念简单,但实际操作中频繁的“接管”和中断严重影响了流畅性。
- 准确性与可靠性: 6.2/9.8 – 在语义理解和面对动态元素时表现不稳定,多次出现错误和卡顿。
- 性能表现: 6.8/9.2 – 任务执行存在延迟和中断,资源管理(如摄像头)有待优化。
- 适用场景: 6.5/9.0 – 创新思路,但在真实复杂环境中实用价值低,更适合概念验证和技术探索。
- 成本效益: 7.5/9.5 – 作为可能免费提供的AI Agent探索工具,为特定用户群体提供了前沿技术体验机会。
综合总分:6.7/10.0
推荐指数
⭐⭐💫 (2.5星,满分5星)
使用建议与注意事项
- 明确预期:AutoGLM 2.0目前尚处于早期探索阶段,不应抱有“万能助手”的过高期望,其主要价值在于技术理念的验证而非大规模实用。
- 选择性使用:仅建议在不需要登录、无广告干扰、操作流程高度标准化的简单任务中尝试,例如查询信息(不涉及复杂交互)。
- 注意隐私:留意Agent对摄像头等系统资源的调用情况,确保及时关闭以避免潜在隐私问题。
- 耐心与尝试:用户需要有足够的耐心来应对可能出现的卡顿、错误和手动介入,并尝试调整提示词以适应其理解能力。
- 关注迭代:作为一项前沿技术,其未来版本有望在处理真实世界复杂性方面有所突破,建议持续关注其发展。