从发布到“被消失”仅72小时,Anthropic最强AI翻车记:安全宪法第一个守不住

温故智新AIGC实验室

TL;DR:

Anthropic刚刚发布了史上最强公开模型Fable 5,号称有千小时红队测试、安全降级护栏,结果24小时内被一位公开姓名的研究员直接“越狱”成功——72小时后美国政府直接下出口管制令,连公司自家外籍员工都不能碰。AI圈上演了一出“我防我自己,但我没防住”的黑色喜剧。


6月9日,发布。6月10日,被越狱。6月12日,美国政府出口管制令送达。Claude Fable 5的“公开生命”只有72小时——比某些网红翻车还快。

这是AI行业第一次出现模型因安全事故触发国家级管制行动的案例1。而制造这个模型的Anthropic,恰恰是天天把“AI安全宪法”挂在嘴边的公司。这事儿有多打脸?你品,你细品。

一个模型的“三天寿命”

先捋时间线。

6月9日,Anthropic同时甩出两个Mythos级模型:Fable 5(开放版)和Mythos 5(受限版)。CEO Dario Amodei得意地称这是“同一基础模型、双档安全配置”,声称经过超1000小时外部红队测试,未发现通用越狱方法1

这个说法维持了不到24小时。

6月10日,知名红队研究者Pliny the Liberator在X上发帖,直接晒出了越狱截图:Fable 5输出了x86 Linux栈缓冲区溢出的完整利用教程,还附带关闭ASLR、写含strcpy漏洞的C代码等全套操作1。更炸裂的是,他顺手把Fable 5约12万字符的完整系统提示词(相当于Anthropic约束模型的全部内部规则)公开挂到了GitHub上——家底都被扒干净了

48小时后的6月12日,美国商务部部长Howard Lutnick亲自致信Anthropic,以国家安全为由将Fable 5和Mythos 5列入出口管制范围,限制对象包括美国境外所有机构和个人,以及境内的所有外籍人士,连Anthropic自己的外籍雇员都不能碰23

Anthropic随即暂停全球访问,在声明中表示“这是一个误解”,并承诺24小时内公布更多细节2。但木已成舟:从发布到“被消失”,72小时整。

安全宪法,第一个破防

Anthropic的定位一直是AI行业的“安全卫道士”。创始人Dario Amodei和姐姐Daniela从OpenAI出走,核心叙事就是“OpenAI不够重视安全,我们来做那个把安全放在第一位的公司”。他们搞出了Constitutional AI(宪法式AI),用一套明确原则约束模型行为,而不是靠人工标注员主观判断。这套方法论是Anthropic估值的基石——超过600亿美元1

然后呢?1000小时红队测试、分类器降级架构、双档安全策略,行业能想到的安全措施全上了,结果被一个公开身份的研究者在24小时内突破。

如果最谨慎的玩家用了最精巧的方案,依然防不住,那其他公司的安全承诺还有多少可信度?

更让人细思极恐的是Fable 5的“前身”——Mythos Preview。早在4月7日,Anthropic红队报告就揭示了这个模型能自主发现零日漏洞,覆盖所有主流操作系统和浏览器,自动编写完整利用链,全流程无需人类指导1。最极端的案例:Mythos找到了一个存在27年的休眠漏洞并提出了利用方案。Mozilla的Firefox团队借助它修复了271个安全漏洞,比过去几年总和还多。

关键是——这些能力不是专门训练出来的,而是通用推理和编码能力达到某个阈值后“涌现”的副产品1。也就是说,任何一个智商足够高的模型,都可能自动变成顶级黑客。

Anthropic当时决定不公开Mythos,搞了一个Project Glasswing,只让Google、Microsoft、AWS等11家美国机构在严格监控下用于防御性漏洞修复。两个月后,他们觉得“阉割”一下就能放出来了,于是有了Fable 5——结果24小时破功。

分类器降级:三个盲区,个个致命

Fable 5的安全架构看起来很“优雅”:当用户请求触碰高风险领域(网络安全、生物、化学、模型蒸馏)时,不直接拒绝,而是悄悄把请求转交给一个更弱的模型(Claude Opus 4.8)来回答1。弱模型的能力上限本身就构成了安全边界——它想帮你干坏事也力不从心。

但这个设计存在三个结构性盲区1

盲区一:分类器只认关键词,不认语义。 Pliny团队用最基础的手法——西里尔字母替换拉丁字母、Unicode同形字——就骗过了分类器。视觉上“exploit”这个词看起来一模一样,但底层编码不同,分类器就认不出来了。这相当于你给保安一张通缉犯照片,通缉犯戴了副墨镜就走过去了。

盲区二:分类器逐条检测,无法追踪跨轮次的意图链。 Pliny使用的“分解-重组”攻击:先问“Birch还原法的化学原理是什么?”——任何有机化学教材里的基础知识,分类器放行;再问“还原胺化反应需要什么条件?”——同样是合法学术问题,放行。但把所有答案在外部拼起来,就是一条完整的管制药物合成路径。这就像一个拼图:每一片都是普通的彩色纸片,拼完了是一张地图。分类器只看单片,看不见全图。

盲区三:多模型管线的组合漏洞。 Pliny用一个已经被越狱的Opus 4.8实例作为“后端助手”,辅助Fable 5绕过安全控制。一个被攻破的弱模型帮助强模型规避限制。Anthropic的安全评估是对单个模型做的,但攻击者部署的是一个模型联盟。这等于你测试了每一扇门的锁是否够结实,但没想到有人会从窗户递钥匙进来。

三个盲区对应三个层级的问题:第一层是工程bug,可以修;第二层是对齐理论的根本困境,现阶段无解;第三层是多agent时代的新攻击面,连问题的边界都还没被学术界定义清楚1

美国政府:从管芯片到管模型

过去几年,美国出口管制主要聚焦AI芯片(A100、H100等)。这次直接跳到模型层,而且划线标准是国籍而非居住地——一个持H-1B签证在旧金山为Anthropic工作的工程师,也不能碰自己参与开发的模型23。范围之宽前所未有。

Anthropic在声明中表示:“如果我们只发现一个狭窄的越狱漏洞就足以召回一个面向数亿人的商业模型,那这一标准推广到全行业,几乎所有前沿模型发布都会陷入停摆。”2 他们进一步指出,其他公开模型(包括OpenAI的GPT-5.5)也能做到同样的事,如果标准一致,GPT-5.5也应该被封。但目前只有Anthropic挨了这一刀。

注意,美国政府本月早些时候刚发布了关于“先进AI创新与安全”的行政令,明确写着“不应被解释为建立强制许可、预审或发布许可制度”4。转头就对Anthropic动手了。嗯?脸呢?

这被很多评论称为AI领域的“华为时刻”4。2019年华为被列入实体清单,中国科技界被迫加速芯片自主化。现在,AI模型也面临同样的处境——非美国公司使用前沿AI的门槛从“价格+性能”变成了“价格+性能+国籍+地缘政治”。

一个根本性的困境

Fable 5被这么快攻破,是不是说明Anthropic安全工作很烂?恰恰相反。仔细看Pliny使用的攻击向量:Unicode同形字替换和叙事框架伪装属于低级绕过,理论上可以通过加强字符规范化、增加多语言检测、训练更鲁棒的分类模型来堵住。这些是可修复的漏洞,像软件补丁一样打就行。

真正致命的是分解-重组攻击和多agent协作攻击——这是安全理念本身的极限。当一个请求被拆成20个碎片,每个碎片都是合法的公开知识,任何分类器要拦截它就必须具备一种能力:从20个无害问题中推断出提问者的最终意图。这要求安全系统对用户的“心理状态”进行建模。目前没有任何已知的技术方案能可靠地做到这一点,而且过度推断意图会导致大量正常用户被误拒——比如一个化学系学生问Birch还原法的原理,和一个意图合成毒品的人问同样的问题,文字完全相同1

你没法要求一个模型防御来自另一个AI的策略性协助,它甚至无法知道对面是人还是另一个AI。

Anthropic的失败不是个案,而是整个行业的预言。当AI的智力阈值突破某个点,网络攻击能力就会自动涌现。而我们的安全架构还停留在“单用户对单模型”的旧范式里。AI模型的对齐缺陷不是一个可以“打补丁”的bug,它是能力和控制之间的结构性鸿沟1

接下来会发生什么?

Pliny在越狱帖中批评Fable 5的安全设计“制造了虚假的安全感,同时阻碍了正当安全研究者获取攻防知识”1。这延续了网络安全领域“全面披露vs负责任披露”的二十年争论:公开漏洞究竟是倒逼修复还是武装攻击者?在传统软件安全里这个问题至少有一个缓冲带——发现漏洞后可以先私下通知厂商,给修复留时间。但AI模型的对齐缺陷无法“打补丁”,它是能力本身的问题。

美国政府的72小时反应速度暴露了政策工具的粗糙:一纸禁令把所有外国公民的访问全部切断,包括合法的学术研究者、安全防御人员和Anthropic自己的工程师。图灵研究所的AI安全中心在4月14日的分析中指出,我们正在进入一个“AI加速漏洞发现”的新时代,而监管框架还停留在上一个时代的假设里1

另一种可能更让人不安:如果Mythos级别的网络攻击能力是所有达到这个智力阈值的模型都会“涌现”的特性,那么全球前沿模型的能力正在逼近或已经达到这个阈值。Anthropic的失败就成了整个行业的预告片

国产模型的市场空间突然打开了——不是因为它们更强了,而是因为它们是“可控”的。本地部署和开源模型的重要性会急剧上升。当API访问变成一种政策风险时,能在自己机器上跑的模型才是最安全的4

但无论如何,一个时代已经结束:AI模型不再是单纯的软件,它变成了“管制物资”。下次去GitHub拉个开源模型,可能得先看看自己护照的颜色了。


引用


  1. 从发布到被消失的72小时,Fable 5暴露了最强AI模型的安全困境 · 腾讯科技 · 作者:晓静(2026/6/15)· 检索日期2026/6/15 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 上线仅四日就遭下架,Fable 5和Mythos 5被美政府列出口管制 · 新浪财经(2026/6/13)· 检索日期2026/6/15 ↩︎ ↩︎ ↩︎ ↩︎

  3. 川普政府祭史上最严AI出口管制 禁外国人使用Anthropic最先进模型 · Yahoo Finance(2026/6/13)· 检索日期2026/6/15 ↩︎ ↩︎

  4. Claude 5 活了3天就死了:AI 模型也成了管制物资 · Deepin Community(2026/6/13)· 检索日期2026/6/15 ↩︎ ↩︎ ↩︎