穿越风暴：Manus AI的上下文工程之道与AI Agent的未来架构范式

TL;DR：

Manus AI在争议中首次披露其AI Agent构建经验，强调“上下文工程”而非模型训练，揭示了KV-Cache优化、工具遮蔽、文件系统作为外部记忆等关键技术实践，预示了面向高效、健壮与可扩展的未来Agent架构范式。

最近，AI Agent领域的新星Manus AI经历了一场不小的风波。在短短四个月内迅速走红之后，Manus却突然被曝几乎全面撤出中国市场，社交账号内容清空，国行版本疑遭暂停。尽管联合创始人张涛曾宣布将全球总部迁至新加坡，并称之为“基于经营效率的调整”，外界对其“跑路”的猜测不绝于耳，甚至引发裁员争议。然而，在这一片喧嚣中，联合创始人季逸超却选择了一条非同寻常的路径——发布一篇深度技术博客，试图将外界的关注点重新拉回其产品技术的本质。这并非一次简单的技术复盘，而是在其产品市场契合度（PMF）探索阶段，对AI Agent未来架构和发展路径的一次深刻反思与前瞻性洞察。¹

战略转向与范式革新：押注上下文工程

Manus团队在构建Agent之初就面临一个核心抉择：是基于开源基础模型训练一个端到端Agent，还是利用前沿模型的上下文学习能力？季逸超坦陈，他从上一个创业公司中吸取了惨痛教训——耗时训练的内部模型在一夜之间被GPT-3和Flan-T5的出现所颠覆。这一经历使其清晰认识到，对于需要快速迭代以验证PMF的应用而言，缓慢的反馈循环是致命的。

“这个来之不易的教训使选择变得明确：Manus 将押注于上下文工程。这使我们能够在几小时内而非几周内推出改进，并使我们的产品与底层模型保持正交：如果模型进步是上涨的潮水，我们希望 Manus 成为那条船，而不是固定在海床上的柱子。”

这一战略选择不仅是技术路线的偏好，更是一种深刻的商业敏锐度与生存哲学。它承认了基础大模型能力的飞速演进，将自身定位为“上层建筑”——在变化莫测的基础模型之上，通过精巧的上下文管理和工程，实现产品的韧性与快速响应。这种“随机研究生下降法”虽非优雅，却在数百万真实交互中证明了其有效性，揭示了AI Agent开发从“模型为王”向“工程制胜”的范式转变。

极致效率之钥：KV-Cache优化与工具精控

在AI Agent的运行中，效率和成本是决定其商业可行性的核心要素。Manus的经验表明，KV-Cache命中率是生产级Agent最重要的单一指标，因为它直接影响延迟和成本。以Claude Sonnet为例，缓存的输入token成本比未缓存低10倍，这对于大规模应用而言是巨大的经济杠杆。¹

为了提高KV-Cache命中率，Manus提出三条核心实践：

保持提示前缀稳定：避免在系统提示中包含时间戳等动态元素，因为单个token的差异都会使后续缓存失效。
上下文仅追加：避免修改先前的操作或观察，确保序列化是确定性的，防止因键排序不稳等细微差异破坏缓存。
明确标记缓存断点：在不支持自动增量缓存的框架中，手动插入断点并考虑缓存过期。

此外，Agent随着能力扩展，工具数量必然爆炸式增长。Manus的团队发现，动态添加或移除工具不仅会使KV-Cache失效，还会让模型在引用已移除工具时陷入混乱甚至“幻觉”。他们的解决方案是**“遮蔽（Masking）”而非“移除”：通过上下文感知的状态机，结合token logits的遮蔽，阻止或强制模型在解码过程中选择某些动作，而无需修改工具定义。这种基于约束解码的精细控制**，确保了Agent循环的稳定性和高效性，是Agent工程学中的一个关键创新点，体现了对LLM底层行为的深刻理解。

突破记忆边界：文件系统与“外部记忆”

尽管现代大语言模型上下文窗口已达128K甚至更长，但在真实世界的Agent场景中，这仍往往不够，甚至可能成为一种负担。庞大的观察数据（如网页、PDF）、模型性能随长度下降以及高昂的token成本，都促使Agent系统寻求突破。

Manus的答案是将文件系统视为终极上下文：

“模型学会按需写入和读取文件——不仅将文件系统用作储存，还用作结构化的外部记忆。”

这种设计使得Agent的记忆大小不受限制，本质上持久存在，且可由Agent自身直接操作。Manus采用可恢复的压缩策略，如保留URL而删除网页内容，或省略文件内容而保留路径，从而在不永久丢失信息的前提下缩短上下文。这一洞察不仅解决了当前大模型上下文窗口的局限性，更对未来AI Agent的架构提出了深刻的哲学性思考。季逸超甚至将其与状态空间模型（SSM）和神经图灵机（Neural Turing Machine）联系起来：如果SSM能够掌握基于文件的记忆，将长期状态外部化，那么其速度和效率可能开启一种新型Agent，真正实现神经图灵机的愿景。这预示着Agent的智能将不再局限于模型内部，而是能有效地与外部环境进行长期、结构化的交互和记忆管理。

Agent行为塑造：注意力操控与错误自适应

AI Agent在复杂、多步骤任务中容易“迷失目标”或“中途忘记”。Manus通过一个简单而巧妙的机制——不断重写并更新todo.md文件——来操控模型的注意力。这种做法将全局目标持续推入模型近期注意力范围，有效避免了“迷失在中间”的问题。这是一种通过自然语言对模型认知过程进行干预的实践，显示出工程师在现有模型能力之上，通过巧妙设计来提升Agent行为效能的潜力。

更具洞察力的是Manus处理错误的方式。大多数系统倾向于掩盖错误、清理日志、重试操作。然而，Manus的经验表明，保留错误尝试在上下文中，让模型看到失败的操作、观察和堆栈信息，能使其隐式更新内部信念，减少重复犯错的可能性。

“抹去失败会移除证据。而没有证据，模型就无法适应。”

这一观点对Agent的自我学习和迭代至关重要。它颠覆了传统软件工程中“错误即异常”的思维，转而将“失败视为构建Agent过程的一部分”，并将其作为模型自我纠正和适应的宝贵数据。这不仅是技术上的突破，更是对智能系统韧性与学习能力本质的深刻理解。

告别同质化陷阱：少样本提示的再思考

少样本提示（Few-shot prompting）被广泛用于提升LLM输出质量，但在Agent系统中，Manus发现它可能适得其反，导致“同质化陷阱”。LLM是优秀的模仿者，会盲目模仿上下文中的行为模式，这可能导致Agent在长任务中陷入重复、过度泛化甚至“复制粘贴式幻觉”。

Manus的解决方案是引入多样性：在行动和观察中加入少量结构化变化，如不同的序列化模板、替代措辞、顺序或格式的微小噪声。这种“受控的随机性”有助于打破模式，调整模型的注意力，使其避免陷入机械模仿。这提醒我们，即使是看似有效的提示工程技术，在复杂的Agent系统中也需批判性地评估其潜在的副作用，并进行精细化调整。

产业生态与未来展望：Agent化的核心驱动力

Manus的复盘，不仅仅是其公司层面的一次技术披露，更是当前整个AI Agent产业发展进程中的一个重要里程碑。它清晰地表明，AI Agent的未来，并非简单依赖于大模型本身的参数规模，而在于其外部“工程层”的精巧设计与优化。从KV-Cache的高效利用，到工具的智能遮蔽，再到文件系统赋予的无限记忆，以及对模型注意力与学习机制的深层干预，这些实践共同构成了构建高效率、高鲁棒性、高可扩展性AI Agent的基石。

从商业角度看，这种“上下文工程”的方法论，使得初创公司和开发者能够更快速地迭代产品，验证商业模式，并在PMF之前保持资金效率。通过将自身与基础模型解耦，Manus试图成为“上涨潮水中的船”，而非“固定在海床上的柱子”，这对于在快速变化的AI市场中求生存和发展至关重要。

从社会影响层面，能够有效管理上下文、操控注意力、从错误中学习的Agent，预示着未来更具“自主性”和“类人化”行为的智能体。这些Agent将能够更长时间地执行复杂任务，处理非结构化信息，并能在真实世界的混乱环境中进行自我修正。随着这些技术日趋成熟，它们将深刻改变我们的工作方式、自动化生产流程，甚至影响人类与机器的交互模式，推动社会向更深度的智能化迈进。

Manus的经验并非普遍真理，但它为正在构建AI Agent的开发者们提供了一份“局部最优解”的实践指南。AI Agent的未来取决于一次次对上下文的精雕细琢，它们将成为驱动下一波AI浪潮的核心引擎。

引用

Manus「删博跑路」后，创始人首次深度复盘：公开产品细节，总结教训·APPSO·发现明日产品的（2025/7/19）·检索日期2025/7/19 ↩︎ ↩︎