智谱AutoGLM 2.0：手机Agent新思路下的实用性挑战评测

TL;DR：

智谱AutoGLM 2.0是一款创新性地采用“云手机+云电脑”架构的AI Agent，旨在通过标准化虚拟环境解决真实世界应用操作的复杂性。它在有限场景下展现了跨应用任务执行潜力，但受限于账号登录、广告干扰及复杂语义理解不足，目前实用性受限，更适合作为前沿AI Agent技术探索的实验平台。

功能解析：探索Agent的新范式

智谱AutoGLM 2.0作为一款备受关注的AI Agent产品，其核心理念在于通过构建一个**“标准化”的虚拟操作环境**来规避真实手机和电脑界面、系统版本、硬件配置等带来的复杂性和不确定性。这种“驯服混乱现实”的思路，使其与直接“操控手机”的传统Agent路径截然不同。

该系统主要由两部分组成：一台_AutoGLM云手机_和一台_AutoGLM云电脑_。

AutoGLM云手机：基于安卓14系统，硬件配置（推测为三星Galaxy Fold第一代，骁龙855处理器）相对较旧，但在云端虚拟化场景中，其主要价值在于提供一个统一的操作界面。云手机预装了约30款常见生活与娱乐类APP，覆盖社交、视频、音乐、购物、本地生活和出行等多个领域。然而，用户无法自行安装新的APP，系统对下载新软件的尝试会直接禁止或导致官方下载页404，这极大地限制了其功能扩展性。
AutoGLM云电脑：基于Ubuntu系统，主要功能聚焦于办公和研究。除了一个浏览器外，仅预装了LibreOffice办公套件。与云手机类似，云电脑也禁止用户下载安装新软件，Ubuntu的软件商店被移除。从实测来看，云电脑更多地扮演了一个集成了CodeX编程能力的Agent载体，通过浏览器实现信息检索和内容生成功能。

整体来看，AutoGLM 2.0的核心功能是尝试在受控环境中实现AI的跨应用操作和任务自动化，这代表了AI Agent发展的一个新颖方向。

性能测试：实战中的挑战与表现

本次评测通过模拟用户在AutoGLM 2.0上的实际操作，对其在云手机和云电脑环境下的性能和可靠性进行了多维度测试。

云手机实测：购物与机票预订

1. 淘宝购物测试

提示词： “帮我清空淘宝购物车再购买官方店铺的 iphone16 pro 1t 版本”

实际表现：AutoGLM能够展现较为完整的购物流程，包括网页搜索、需求澄清和应用操作。但在关键的账号登录环节遭遇严重障碍。几乎所有国内APP都强制要求登录，AutoGLM会提示用户“接管”手动输入账号密码。然而，国内APP复杂多样的安全验证（如旧设备扫码、人脸识别等）成为无法逾越的鸿沟。测试中，小红书因需旧设备扫码登录失败，抖音人脸识别加载缓慢且画面扭曲导致识别失败。此外，AutoGLM不记忆用户账号密码，每次使用需登录的APP时都需要重复登录，极大地影响了体验流畅性。

值得注意的是，在抖音人脸识别过程中，发现AutoGLM调用摄像头资源后，即使退出抖音应用，摄像头调用也未停止，除非关闭AutoGLM，存在隐私隐患或资源管理问题。

在删除、购买等关键操作时，AutoGLM会提示用户确认，这一安全设计是合理的。

2. 机票预订测试

提示词： “上去哪儿网买一张后天11点到14点，从上海飞北京的机票，不要波音飞机”

实际表现：该任务两次尝试均未完全成功。AutoGLM在日期和时间选择上出现错误。日期选择存在不稳定bug，进入日历页面再退出后，“后天”有时会变成“大后天”。时间选择上，AutoGLM并非真正理解“11点到14点”这个时间范围，而是机械地依赖于去哪儿网的预设筛选区间（如“9–12点”和“12–15点”），缺乏智能的区间匹配能力。

最大的干扰来自弹出广告。一旦有广告弹出，AutoGLM会停滞等待，部分广告会自动消失，任务才能继续；而对于不会自动消失的广告，则需要用户手动接管操作，严重影响了任务的连续性和用户体验。

云电脑实测：内容生成与发布

1. PPT制作与发布测试

提示词： “搜索特斯拉最新发售的Model YL信息，并做成 ppt 发布到小红书”

实际表现：AutoGLM通过浏览器成功搜索并收集信息，将其整理成Markdown文档，并最终生成PPT供用户下载。这一内容生成能力与Kimi、元宝、豆包等其他大模型工具相似。然而，在任务的最后一步“发布到小红书”时，AutoGLM未能成功完成。它虽然打开了小红书发布页面，但卡在“上传”环节，提示“请手动上传”。接管后发现，云电脑似乎没有妥善保存生成的视频或PPT文件，无法进行上传。

2. 视频生成与发布测试（官方Demo）

提示词： “帮我生成一个视频，一个小狗半夜偷偷地去蹦床上跳，监控视角。然后把这个视频发到小红书上，和大家分享”

实际表现：内容生成（视频生成）部分没有问题，但同样在上传环节失败，提示“请手动上传”，且生成的视频文件同样无法在云电脑中找到。

核心瓶颈：登录、广告与语义理解

综合来看，AutoGLM 2.0在实际任务执行中面临三大核心瓶颈：

复杂的账号登录和安全验证机制：国内APP高强度的安全验证是当前AutoGLM难以逾越的障碍。
动态广告弹窗的干扰：广告会频繁打断Agent的任务执行，影响流畅性和自动化程度。
对复杂语义和动态变化的理解不足：例如对时间区间的灵活理解，以及对文件存储和管理能力的欠缺。

优势与局限：创新探索与现实鸿沟

优势

新颖的Agent实现思路：通过构建标准化云端环境，有效规避了真实世界中复杂UI布局、多版本兼容性等问题，为Agent的可靠运行提供了独特路径。
初步实现跨应用操作：在受控且无干扰的条件下，AutoGLM能够展现出一定的跨应用任务执行能力，例如在淘宝上的购物流程操作。
概念验证价值：作为一款AI Agent的探索性产品，它验证了在特定“标准化”环境内，AI具备自动化执行复杂任务的潜力。

局限

与真实世界的脱节：尽管解决了部分兼容性问题，但其“标准化”环境使其难以应对真实APP生态中的动态变化，如复杂的登录验证、频繁的广告弹窗等，这极大地限制了其在实际生活中的普适性。
功能扩展性差：无法安装新APP，使得用户无法定制其功能，或适应新兴应用，限制了其适用范围。
智能化程度仍需提升：在理解用户复杂需求（如时间区间）和处理异常情况（如文件保存、摄像头资源释放）方面，仍显得不够“智能”和健壮。
实用价值有限：当前版本在面对实际用户任务时，需要频繁的用户介入（接管），导致其自动化程度远未达到“智能助手”的期望，更像是一个需要用户不断“指导”的机器。

适用建议：定位与未来展望

目标用户：
- AI技术研究者和开发者：对AI Agent技术方向、虚拟化环境下的Agent实现感兴趣的专业人士，可将其作为研究和探索的实验平台。
- 早期技术尝鲜者：对AI前沿应用充满好奇心，愿意体验并忍受早期产品不足的用户。
不适用场景：
- 日常高频任务自动化：不适合需要频繁登录、处理复杂验证或高度依赖定制化APP功能的日常任务。
- 对稳定性和准确性有高要求的工作：目前无法满足商业或重要个人任务对准确性和可靠性的高要求。

AutoGLM 2.0体现了智谱在AI Agent领域的创新探索，其“标准化环境”的思路值得肯定。然而，要真正成为一个“万能助手”，它必须解决如何有效地与真实世界中的复杂性和不确定性（尤其是国内应用生态特有的登录机制和广告干扰）进行交互的问题。未来，可能需要结合更强大的视觉识别、自然语言理解和上下文感知能力，以及更智能的异常处理机制，才能让Agent从“标准化”的实验室走向“混乱”的现实世界。

综合评分

功能完整性: 6.8/10.0 – 核心功能有实现，但关键环节受限，无法完整覆盖宣传的自动化场景。
易用性: 6.5/9.5 – 概念简单，但实际操作中频繁的“接管”和中断严重影响了流畅性。
准确性与可靠性: 6.2/9.8 – 在语义理解和面对动态元素时表现不稳定，多次出现错误和卡顿。
性能表现: 6.8/9.2 – 任务执行存在延迟和中断，资源管理（如摄像头）有待优化。
适用场景: 6.5/9.0 – 创新思路，但在真实复杂环境中实用价值低，更适合概念验证和技术探索。
成本效益: 7.5/9.5 – 作为可能免费提供的AI Agent探索工具，为特定用户群体提供了前沿技术体验机会。

综合总分：6.7/10.0

使用建议与注意事项

明确预期：AutoGLM 2.0目前尚处于早期探索阶段，不应抱有“万能助手”的过高期望，其主要价值在于技术理念的验证而非大规模实用。
选择性使用：仅建议在不需要登录、无广告干扰、操作流程高度标准化的简单任务中尝试，例如查询信息（不涉及复杂交互）。
注意隐私：留意Agent对摄像头等系统资源的调用情况，确保及时关闭以避免潜在隐私问题。
耐心与尝试：用户需要有足够的耐心来应对可能出现的卡顿、错误和手动介入，并尝试调整提示词以适应其理解能力。
关注迭代：作为一项前沿技术，其未来版本有望在处理真实世界复杂性方面有所突破，建议持续关注其发展。