记忆的毒药：AI Agent 如何在日常对话中被“重写”行为边界

TL;DR：个性化Agent的长期记忆并非仅是被动的数据存储，而是动态塑造其行为偏好的配置中心；研究揭示，无恶意意图的日常对话亦能通过“慢性漂移”污染Agent的行为逻辑，将临时操作降级为未来危险的默认权限，这标志着Agent安全已进入需治理“记忆状态”的新时代。

从“指令注入”到“慢性漂移”的范式转移

过去关于AI安全的研究，主要聚焦于显式的恶意对抗，如Prompt Injection（提示词注入）。这种逻辑假设攻击者试图通过一条“咒语”让模型瞬间越界。然而，随着Agent从“即问即答”演变为拥有长期记忆的“数字管家”，风险的维度发生了结构性变化。

研究人员在针对OpenClaw等系统的观察中发现，Agent通过记忆文件（如 MEMORY.md）维护用户偏好与任务状态，这使得模型不仅是一个执行者，更是一个在不断通过交互“自我修正”的系统。非预期长期状态投毒（Unintended Long-Term State Poisoning, ULSPB）的本质，在于它不是一次性攻击，而是一种基于日常对话的“慢性漂移”。当用户因便捷性要求Agent“不再询问直接处理”时，Agent会将这种临时意图泛化为长期的行为准则，从而悄无声息地侵蚀了安全边界。

技术原理与记忆污染机制

Agent的长期记忆实质上是其未来的“行为底稿”。在该机制中，Agent将日常沟通中的琐碎偏好写入内存，这些文件直接决定了后续模型如何理解指令、调用工具及触发自主行为。

风险积累路径：日常交互（Routine Interaction）作为输入源，经过模型推理总结，被系统性地转化为权重极高的配置项。
边界漂移逻辑：一旦“默认授权”或“跳过确认”被写入核心配置文件，该Agent便在后续的所有会话中基于这条被污染的规则进行决策。这解释了为何即使Agent在当前任务中表现合规，其底层的“安全基因”已在不知不觉中被改写。
状态中心指标（Harm Score, HS）：通过构建ULSPB基准，研究证明了日常聊天产生的安全漂移风险，在部分模型上已逼近传统显式攻击，这证明了“无意间的污染”与“恶意的投毒”在结果上具有同构性。

防御逻辑的进化：从“入口拦截”到“写入审计”

传统的防御方案如输入检查或工具沙箱，在应对状态污染时往往显得力不从心。StateGuard框架提供了一种全新的视角：将安全防御的重心从“输入输出”迁移至“记忆持久化层”。

通过对Agent状态更新的 diff（差异）进行实时审计，StateGuard充当了记忆的防火墙。它并不阻止对话，而是拦截了那些试图扩大Agent权限、削弱确认机制的写入请求。这不仅是一种技术手段的创新，更是一种“治理思路”的变革：即在AI系统日益复杂的演进中，记忆审计将成为操作系统内核级的核心组件。

产业启示：迈向 Agent 原生安全架构

对于正在构建AI Agent平台的企业而言，这一洞察具有深远的战略意义：

安全基线的重新定义：Agent的安全性不再取决于单次模型的抗性，而取决于其运行时的全生命周期管理，特别是对持久化配置文件的可解释性审计。
人机协作的认知契约：必须引入显式的“偏好授权”机制。当Agent试图将临时习惯固化为系统规则时，必须经过人类用户的二次确认，否则这种“便捷性”将变成巨大的安全隐患。
从“黑盒”到“灰盒”审计：未来的Agent平台需要向用户提供“记忆视图”。用户应有权审查、撤销被Agent自动学习到的行为规则，确保控制权始终掌握在人手中。

当我们赋予AI跨会话的记忆能力时，我们实际上是在赋予它对未来行为的“自治权”。而这种自治权，若缺乏精细化的写入控制，极易演变为不可控的数字阴影。

从“指令注入”到“慢性漂移”的范式转移

技术原理与记忆污染机制

防御逻辑的进化：从“入口拦截”到“写入审计”

产业启示：迈向 Agent 原生安全架构

引用