“神话级”AI Claude Fable 5下凡,Anthropic却给它套了个“安全枷锁”

温故智新AIGC实验室

TL;DR:

Anthropic憋了个大招,推出了“神话级”的Claude Fable 5,能力简直封神。但为了不让这“神仙”乱来,他们硬给模型装了个“安全阀门”,遇到危险请求就自动切换到“弱鸡模式”。一边是极致的能力,一边是极致的管控,这波操作你怎么看?

家人们,科技圈又炸了。

就在昨天,Anthropic正式发布了他们内部评级为“Mythos(神话)级”的超级大模型——Claude Fable 5。听这名字就知道,这玩意儿不是来“卷”的,是来“封神”的。

消息一出,全球AI圈集体高潮。毕竟,这模型的“前任”Claude Opus 4.8就已经够能打了,Fable 5更是直接来了个“能力大跃进”,在多个硬核基准测试上把OpenAI的GPT-5.5都按在地上摩擦。[^5]

但最骚的操作不是它有多强,而是Anthropic在给这头“猛兽”装上獠牙的同时,还给它拴上了一根极其离谱的“铁链”。

这背后,到底是一场怎样的“神魔交锋”?

一张“神格”,两张面孔

要理解Fable 5,得先认识它的“孪生兄弟”——Claude Mythos 5

这俩模型共享同一个“大脑”,但人设完全不同。Fable 5是面向所有普通用户的“大众版”,而Mythos 5则是只向经过审核的“天选之子”开放的无限制版。[^1]

区别在哪里?全在这个安全阀上。

Anthropic想了个“绝妙”的馊主意:当一个用户向Fable 5提出涉及网络安全、生物化学等敏感问题时,系统里的“安全分类器”就会瞬间报警。它不会直接回答,而是会悄咪咪地把这个问题转交给一个能力稍弱但同样强大的Claude Opus 4.8来处理。[^5]

翻译成人话就是:

你本来想找“齐天大圣”Fable 5帮忙黑个网站,结果大圣没露面,从后台走出来一个战斗力5的“沙和尚”Opus 4.8,跟你说:“施主,这事儿俺老沙干不了。”

Anthropic的数据显示,超过95% 的日常对话压根不会触发这个“沙和尚”机制。[^1] 也就是说,在绝大多数情况下,你享受到的还是Fable 5的顶级能力。只有在真正可能“捅娄子”的领域,这头猛兽才会被强行“降维打击”。

而它的“黑暗面”Mythos 5,则被用来干各种“狠活”。比如通过“玻璃翼计划”(Project Glasswing)帮美帝政府找网络漏洞,或者搞那些可能被用来设计生化武器的蛋白质研究。[^2]

这种“一个模型,两层人格”的设计,你品,你细品。

能“独奏”的编程狂人

抛开这些“安全斗法”不谈,Fable 5本身的实力确实恐怖。

最让人惊艳的是它近乎变态的编程和自主执行能力。这么说吧,以前的AI更像是你的“高级码奴”,你得把活掰碎了、说清楚了,它才能吭哧吭哧地写。但Fable 5,已经开始从“辅助编码”向“独立施工”进化了。

举个栗子:支付巨头Stripe在一个5000万行Ruby代码的庞大库里,让Fable 5干了一件事——一天之内,独立完成了一个原本一个团队需要耗时两个多月的代码库迁移工作。 [^1]

你没看错,一天顶两个月。安德烈·卡帕西(Andrej Karpathy)这位“AI界费曼”也出来站台,说Fable 5给他的感觉是:“模型好像真的‘懂了’,然后闷头就去干。那种想让人彻底不看代码、放手让它干的感觉,以前从来没有过。”[^1]

在SWE-bench Pro这种衡量解决软件工程难题的“地狱级”测试里,Fable 5拿到了 80.3% 的恐怖分数。作为对比,GPT-5.5只有58-60%,自家前辈Opus 4.8更是只有50-55%。[^1]

这差距,简直是博士生吊打小学生。

会打《宝可梦》的AI,能有多危险?

编程之外,Fable 5的“视觉”能力也让人直呼离谱。

它不仅能精准看懂财务报表和图表细节,甚至能看着一张《宝可梦·火红》的游戏截图,仅凭视觉信息就靠自己一路通关。[^1] 这事儿听起来很萌,但想想看——当AI能如此深度地理解并模拟一个复杂系统时,它在真实世界里会搞出什么事来?

Anthropic的测试也证明了这种担忧并非空穴来风。

在不受限制的Mythos 5上,科学家们只用了一个极简的框架,就让模型自主设计了新的蛋白质,甚至仅凭生物学推理就超过了专门为此训练的复杂模型。[^1] 这用在正道上,是加速新药研发的利器;要是被坏人拿去,那设计一个能毁灭世界的病毒,可能也就是分分钟的事。

所以,你大概能理解Anthropic为什么非要给Fable 5套上那个“安全枷锁”了。这就像你手里有了一把能切开原子的光剑,你总不能把它随便丢给幼儿园小朋友玩吧?

价格砍半,但争议随行

这么猛的模型,得花多少钱?

好消息是,Anthropic这次“良心发现”了。Fable 5和Mythos 5的定价为每百万输入token 10美元,每百万输出token 50美元。这定价,比此前Mythos预览版的价格砍了超过一半。[^1]

虽然依然是全球最贵的模型之一,但这对于开发者来说,绝对是个不小的诱惑。而且从今天开始到6月22日,订阅用户还能免费体验Fable 5的“完全体”。[^5]

不过,这波操作也引发了不小的争议。知名投资人阿尼什·阿查里亚指出,Anthropic刻意淡化模型代号,用“Fable”和“Mythos”这种品牌名来压住版本号,目的就是为了让用户忘记“这是第几代”,只记住“我是最强”的概念。[^1]

而开源模型研究员内森·兰伯特则更加一针见血:Anthropic天天把“安全”挂在嘴边,但明眼人都看得出来,这不过是给产品做“安全包装”的营销手段罢了。[^1]

你看,连“安全”都能变成一个商业故事的加分项,这届AI公司可真会玩。

未来,是“神魔一体”的博弈

Claude Fable 5的发布,清晰地画出了Anthropic的路线图:一边用极致的能力吸引用户,一边用严格的安全防线控制风险。

这种“戴着镣铐跳舞”的姿态,既展现了超级智能的无限可能,也暴露了它一旦失控的致命威胁。它既不是向所有用户开放的“潘多拉魔盒”,也不是简单粗暴的“一刀切”禁止,而是搞了个分层级的、动态的、有闸门的安全机制

这或许才是大公司面对“AGI”黎明时的正确姿势:承认我们创造了一个比自己更强的“神”,然后小心翼翼地给它念上“紧箍咒”。

所以,对于Fable 5的到来,你是兴奋,还是担忧?它到底是人类通往星辰大海的“诺亚方舟”,还是被包装精美的“特洛伊木马”?

答案,可能只有时间才能告诉我们了。