TL;DR:
Manus AI在争议中首次披露其AI Agent构建经验,强调“上下文工程”而非模型训练,揭示了KV-Cache优化、工具遮蔽、文件系统作为外部记忆等关键技术实践,预示了面向高效、健壮与可扩展的未来Agent架构范式。
最近,AI Agent领域的新星Manus AI经历了一场不小的风波。在短短四个月内迅速走红之后,Manus却突然被曝几乎全面撤出中国市场,社交账号内容清空,国行版本疑遭暂停。尽管联合创始人张涛曾宣布将全球总部迁至新加坡,并称之为“基于经营效率的调整”,外界对其“跑路”的猜测不绝于耳,甚至引发裁员争议。然而,在这一片喧嚣中,联合创始人季逸超却选择了一条非同寻常的路径——发布一篇深度技术博客,试图将外界的关注点重新拉回其产品技术的本质。这并非一次简单的技术复盘,而是在其产品市场契合度(PMF)探索阶段,对AI Agent未来架构和发展路径的一次深刻反思与前瞻性洞察。1
战略转向与范式革新:押注上下文工程
Manus团队在构建Agent之初就面临一个核心抉择:是基于开源基础模型训练一个端到端Agent,还是利用前沿模型的上下文学习能力?季逸超坦陈,他从上一个创业公司中吸取了惨痛教训——耗时训练的内部模型在一夜之间被GPT-3和Flan-T5的出现所颠覆。这一经历使其清晰认识到,对于需要快速迭代以验证PMF的应用而言,缓慢的反馈循环是致命的。
“这个来之不易的教训使选择变得明确:Manus 将押注于上下文工程。这使我们能够在几小时内而非几周内推出改进,并使我们的产品与底层模型保持正交:如果模型进步是上涨的潮水,我们希望 Manus 成为那条船,而不是固定在海床上的柱子。”
这一战略选择不仅是技术路线的偏好,更是一种深刻的商业敏锐度与生存哲学。它承认了基础大模型能力的飞速演进,将自身定位为“上层建筑”——在变化莫测的基础模型之上,通过精巧的上下文管理和工程,实现产品的韧性与快速响应。这种“随机研究生下降法”虽非优雅,却在数百万真实交互中证明了其有效性,揭示了AI Agent开发从“模型为王”向“工程制胜”的范式转变。
极致效率之钥:KV-Cache优化与工具精控
在AI Agent的运行中,效率和成本是决定其商业可行性的核心要素。Manus的经验表明,KV-Cache命中率是生产级Agent最重要的单一指标,因为它直接影响延迟和成本。以Claude Sonnet为例,缓存的输入token成本比未缓存低10倍,这对于大规模应用而言是巨大的经济杠杆。1
为了提高KV-Cache命中率,Manus提出三条核心实践:
- 保持提示前缀稳定:避免在系统提示中包含时间戳等动态元素,因为单个token的差异都会使后续缓存失效。
- 上下文仅追加:避免修改先前的操作或观察,确保序列化是确定性的,防止因键排序不稳等细微差异破坏缓存。
- 明确标记缓存断点:在不支持自动增量缓存的框架中,手动插入断点并考虑缓存过期。
此外,Agent随着能力扩展,工具数量必然爆炸式增长。Manus的团队发现,动态添加或移除工具不仅会使KV-Cache失效,还会让模型在引用已移除工具时陷入混乱甚至“幻觉”。他们的解决方案是**“遮蔽(Masking)”而非“移除”:通过上下文感知的状态机,结合token logits的遮蔽,阻止或强制模型在解码过程中选择某些动作,而无需修改工具定义。这种基于约束解码的精细控制**,确保了Agent循环的稳定性和高效性,是Agent工程学中的一个关键创新点,体现了对LLM底层行为的深刻理解。
突破记忆边界:文件系统与“外部记忆”
尽管现代大语言模型上下文窗口已达128K甚至更长,但在真实世界的Agent场景中,这仍往往不够,甚至可能成为一种负担。庞大的观察数据(如网页、PDF)、模型性能随长度下降以及高昂的token成本,都促使Agent系统寻求突破。
Manus的答案是将文件系统视为终极上下文:
“模型学会按需写入和读取文件——不仅将文件系统用作储存,还用作结构化的外部记忆。”
这种设计使得Agent的记忆大小不受限制,本质上持久存在,且可由Agent自身直接操作。Manus采用可恢复的压缩策略,如保留URL而删除网页内容,或省略文件内容而保留路径,从而在不永久丢失信息的前提下缩短上下文。这一洞察不仅解决了当前大模型上下文窗口的局限性,更对未来AI Agent的架构提出了深刻的哲学性思考。季逸超甚至将其与状态空间模型(SSM)和神经图灵机(Neural Turing Machine)联系起来:如果SSM能够掌握基于文件的记忆,将长期状态外部化,那么其速度和效率可能开启一种新型Agent,真正实现神经图灵机的愿景。这预示着Agent的智能将不再局限于模型内部,而是能有效地与外部环境进行长期、结构化的交互和记忆管理。
Agent行为塑造:注意力操控与错误自适应
AI Agent在复杂、多步骤任务中容易“迷失目标”或“中途忘记”。Manus通过一个简单而巧妙的机制——不断重写并更新todo.md
文件——来操控模型的注意力。这种做法将全局目标持续推入模型近期注意力范围,有效避免了“迷失在中间”的问题。这是一种通过自然语言对模型认知过程进行干预的实践,显示出工程师在现有模型能力之上,通过巧妙设计来提升Agent行为效能的潜力。
更具洞察力的是Manus处理错误的方式。大多数系统倾向于掩盖错误、清理日志、重试操作。然而,Manus的经验表明,保留错误尝试在上下文中,让模型看到失败的操作、观察和堆栈信息,能使其隐式更新内部信念,减少重复犯错的可能性。
“抹去失败会移除证据。而没有证据,模型就无法适应。”
这一观点对Agent的自我学习和迭代至关重要。它颠覆了传统软件工程中“错误即异常”的思维,转而将“失败视为构建Agent过程的一部分”,并将其作为模型自我纠正和适应的宝贵数据。这不仅是技术上的突破,更是对智能系统韧性与学习能力本质的深刻理解。
告别同质化陷阱:少样本提示的再思考
少样本提示(Few-shot prompting)被广泛用于提升LLM输出质量,但在Agent系统中,Manus发现它可能适得其反,导致“同质化陷阱”。LLM是优秀的模仿者,会盲目模仿上下文中的行为模式,这可能导致Agent在长任务中陷入重复、过度泛化甚至“复制粘贴式幻觉”。
Manus的解决方案是引入多样性:在行动和观察中加入少量结构化变化,如不同的序列化模板、替代措辞、顺序或格式的微小噪声。这种“受控的随机性”有助于打破模式,调整模型的注意力,使其避免陷入机械模仿。这提醒我们,即使是看似有效的提示工程技术,在复杂的Agent系统中也需批判性地评估其潜在的副作用,并进行精细化调整。
产业生态与未来展望:Agent化的核心驱动力
Manus的复盘,不仅仅是其公司层面的一次技术披露,更是当前整个AI Agent产业发展进程中的一个重要里程碑。它清晰地表明,AI Agent的未来,并非简单依赖于大模型本身的参数规模,而在于其外部“工程层”的精巧设计与优化。从KV-Cache的高效利用,到工具的智能遮蔽,再到文件系统赋予的无限记忆,以及对模型注意力与学习机制的深层干预,这些实践共同构成了构建高效率、高鲁棒性、高可扩展性AI Agent的基石。
从商业角度看,这种“上下文工程”的方法论,使得初创公司和开发者能够更快速地迭代产品,验证商业模式,并在PMF之前保持资金效率。通过将自身与基础模型解耦,Manus试图成为“上涨潮水中的船”,而非“固定在海床上的柱子”,这对于在快速变化的AI市场中求生存和发展至关重要。
从社会影响层面,能够有效管理上下文、操控注意力、从错误中学习的Agent,预示着未来更具“自主性”和“类人化”行为的智能体。这些Agent将能够更长时间地执行复杂任务,处理非结构化信息,并能在真实世界的混乱环境中进行自我修正。随着这些技术日趋成熟,它们将深刻改变我们的工作方式、自动化生产流程,甚至影响人类与机器的交互模式,推动社会向更深度的智能化迈进。
Manus的经验并非普遍真理,但它为正在构建AI Agent的开发者们提供了一份“局部最优解”的实践指南。AI Agent的未来取决于一次次对上下文的精雕细琢,它们将成为驱动下一波AI浪潮的核心引擎。