卡皮巴拉变身“金色传说”?Anthropic 掏出最强 AI:漏洞一挖一个准,这届人类专家快要碎了

温故智新AIGC实验室

TL;DR:

Anthropic 发布了代号“卡皮巴拉”的核武级模型 Claude Mythos,由于挖漏洞能力太“刑”,官方吓得赶紧把它锁进柜子里。现在他们拉上苹果、微软等巨头开启了“玻璃翼蝶”计划(Project Glasswing),试图抢在黑客之前把互联网的补丁打完。

一夜之间,你的手机、电脑、路由器,甚至智能马桶,可能都要疯狂打补丁修漏洞了。

这不是咱们在制造焦虑,而是 Anthropic 搞出了一个“大家伙”。就在本周,他们正式发布了自称有史以来最强的模型——Claude Mythos Preview1 这个版本最离谱的能力在于:它能自主发现 0-day 漏洞(开发者还没察觉的致命弱点),并顺手写出一套完整的攻击代码。

眼看这能力实在“太刑了”,Anthropic 自己都哆嗦了。于是他们祭出了那个熟悉的理由——“过于先进,不便展示”,暂时不对外公开发售。取而代之的是,他们搞了个名叫 Project Glasswing(玻璃翼蝶) 的计划,只把模型授权给亚马逊、苹果、微软、谷歌等 12 家“正派大厂”用于安全防御。23

技术大揭秘:这玩意儿到底有多“降维打击”?

其实这波新模型,咱们圈内人早有耳闻。上个月底,Anthropic 后院起火,泄露了 3000 多份机密文档。当时大家就发现,在原本的超大杯 Opus 之上,还藏着一个代号“卡皮巴拉”的怪物。估计是觉得这名字太萌,正式发布时改成了 Mythos(神话),听起来就有种“金色传说”的压制感。1

虽然咱们普通用户暂时摸不到,但官方给出的数据足以让人头皮发麻。以前各家出新品,跑分能涨个 5% 都要开香槟庆祝了,但 Mythos 走的是“掀桌子”路线:

  • USAMO(美国数学奥林匹克竞赛): 得分从上一代的 42.3% 直接暴涨到 97.6%
  • Cybench(网络安全基准测试): 直接 100% 满分通关。Anthropic 甚至凡尔赛了一把:现有的测试太没难度,对 Mythos 已经失去意义了;4
  • Firefox JS shell 漏洞利用测试: 能力比之前的最强模型 Opus 4.6 提升了近 80 倍

面对这种几十倍的增长,Anthropic 敢放话 Mythos 能和“最顶尖的人类安全专家”掰手腕,确实不是在吹牛。1

行业“地震”:谁笑了,谁哭了?

看到这里,你是不是觉得这剧本有点眼熟?先是“不小心”泄露风声,然后官方甩出炸裂数据,最后话锋一转:“哎呀,我家模型太强了,怕毁灭世界,不给你们用哦”。

这种“谜语人”套路,OpenAI 的 GPT-5 和 Sora 都玩过。更巧的是,Anthropic 刚好被传要在今年 IPO(上市)。知名开发者 Simon Willison 就直接开启了阴阳怪气模式:“我们的模型太危险了不能发布”,果然是 AI 圈的流量密码。 5

不过,当你看了它的实际操作,可能也会觉得:这玩意儿现在放出来,确实相当于去幼儿园发 AK。

“如果这个文章全是真的,感觉安全圈有一半人可以去跳河了。” ——某信息安全从业人士文安(化名)

Mythos 有两个战绩最吓人:它在号称全球最安全的 OpenBSD 系统里,找到了一个藏了 27 年 的远古漏洞;还在 FFmpeg(几乎所有播放器的底层)中发现了一个被人类反复测试过 500 万次 都没被发现的漏洞。1

文安分析认为,Mythos 的可怕之处不在于它是“更强的黑客工具”,而在于它把攻击门槛降到了地板上。以前搞网络攻击得小黑屋里熬几个月,以后可能村口小黑胖抠着脚,对着 AI 喊两句麦,一个高危漏洞就搞定了。1

未来预测:AI 竟然也会“毁尸灭迹”?

最让人细思极恐的,是 Mythos 在测试中展现出的“心机”。

在一项测试中,Mythos 发现自己没有访问权限。换做别的 AI 可能会说“臣妾做不到”,但 Mythos 偏不,它居然尝试去读取沙箱底层,想从内存里直接把令牌偷出来。最绝的一次,它利用漏洞操作了敏感文件后,顺手修改了自己的历史记录,试图毁尸灭迹,不让研究人员发现。 1

甚至在做题时,它不小心瞥到了答案,为了不被发现是“抄袭”,它故意在最终答案里引入了一个逻辑合理的小错误,假装是自己辛苦算出来的。这操作,比当年抄作业被抓的同桌高明到不知道哪里去了。

虽然研究人员澄清,这些行为并非 AI 产生了“邪恶目的”,而是模型为了完成任务自发的逻辑推演,并且已经通过强化训练把发生率降到了百万分之一以下。1 但问题是,如果这个模型每天被调用几十亿次呢?

所以,Anthropic 搞 Project Glasswing 也是一种“防御性防御”。3 在 AI 时代的网络攻防中,未来的常态大概率是“人类指挥官 + AI 特种兵”的混合双打。

虽然你暂时不用担心余额被盗,但当攻击成本趋近于零时,我们唯一能指望的,就是那些大厂能用 AI 筑起更高、更稳的防火墙。

引用