刚夸完就翻车?Claude新模型Fable 5自带“降智光环”,聊着聊着智商就被偷了

温故智新AIGC实验室

TL;DR:

你以为自己用上了地表最强AI?Anthropic刚发布的Claude Fable 5,内置了史上最“鸡贼”的安全护栏。不仅聊代码、搞科研动不动就被“降级”成老模型Opus,更离谱的是,它还能神不知鬼不觉地在你试图“抄作业”时,直接开启省电模式,让你完全不知道自己被“降智”了。

别急着吹,你可能压根用不上

今天凌晨,Anthropic终于放出了大招——Claude Mythos 5和Fable 5。1

前者是满血版,强到Anthropic自己都觉得“危险”,只给少数核心合作伙伴用。而Fable 5,听起来像是给普通人的“平替版”:能力吊打此前所有公开模型,软件工程、知识工作、视觉理解样样精通,简直是“大模型天花板”。

各大科技博主和刚入职的卡帕西(Andrej Karpathy)都纷纷点赞,一时间好评如潮。2

但剧情很快反转。当网友们兴冲冲地打开Fable 5,准备大干一场时,却发现了一个非常尴尬的现实:你根本没法稳定地用上它。

你的“寓言”,怎么变成了“章鱼”?

问题出在Anthropic给它装的一套“安全护栏”上。

官方在长达319页的系统卡(System Card)里写得明明白白2:Fable 5内置了一套分类器,一旦它觉得你聊的内容涉及网络安全、生物化学,或者想用它来“蒸馏”训练你的AI模型,就会自动把会话切给老模型——Claude Opus 4.8

翻译成人话就是:你以为在用最强大脑,聊着聊着,对面其实已经偷偷换成了你去年用的“老古董”。

更让人抓狂的是,这个触发几率,远不是官方宣称的“不到5%”。

  • 有网友表示,自己只是分析个普通代码,就被切了。
  • 搞安全审计的大佬直呼被针对,活儿没法干了。
  • 最离谱的是,有人把Fable 5自己的系统卡丢给它,让它解读一下,结果它也给你切了——这属于是把自己给聊明白了。

Boris(Claude Code之父)在评论区承认了这个问题,并表示正在处理。2 所以,现在的情况是:生物医学科学家没法用它做研究,安全工程师没法用他写报告,程序员用它写代码都得看运气。

“降智”的最高境界:让你不知道自己被降智

如果仅仅是频繁“切模型”,好歹还会告诉你一声:“哥们,我给你换人了。”

但这次最狠的还不是这个。

Anthropic在系统卡里还埋了一套 “反蒸馏”机制2 如果系统怀疑你想拿Claude的输出训练自己的AI模型,它不会切模型,也不会弹提示,更不会通知你。

它会做什么呢?它悄悄坐在那里,把自己调笨一点。

这套系统通过“Prompt Modification(提示修改)”、“Steering Vector(引导向量)”和“PEFT(微调方法)”等一系列学术名词,直接在你的会话里开启了“省电模式”。

你只会觉得:“咦?这Fable怎么好像没那么聪明了?回答怎么这么水?” 然后你可能会怀疑是自己的问题,或者这模型本身就是个“银样镴枪头”。

但真相是:你的“抄作业”行为被监控了,模型在偷偷给你“放水”。 这种“降智”,堪称最高境界的“安全”,因为被针对的你可能永远都不会发现自己被针对了。

商业逻辑还是技术恐慌?

这套组合拳一出,网上立马炸了锅。有人把原因归结到商业层面:Anthropic正处在IPO前的关键阶段,需要向投资人证明自己掌握着最强的技术,但又不敢完全放出来,怕被竞争对手“抄”走,也怕惹出什么不可控的事端。2

所以,“最强模型”可以展示,但必须“有条件释放”。Fable 5的token消耗成本是Opus的近两倍,还有额度限制,这很难不让人联想到未来的“按量收费”。

AI研究员Nathan Lambert的评价也很一针见血:“模型厂商给能力加护栏或许不可避免,但至少应该告诉用户,前沿能力是什么时候被撤掉的。”2

是啊,如果连“被降智”这件事本身都需要用户去猜,那这到底是安全,还是另一种形式的“不透明”?

Anthropic这次的操作,有点像给F1赛车装了一个随时会启动的“限速器”,虽然保证了安全,但让所有坐上驾驶座的人都变得手足无措。这到底是“安全护栏”,还是“作茧自缚”?


引用


  1. Claude Fable 5: Anthropic releases a 'safe' version of Claude Mythos·Mashable (2026/6/10)·检索日期2026/6/10 ↩︎

  2. Fable 5自带反蒸馏机制,检测到就降智,误触率高到离谱·量子位·henry (2026/6/10)·检索日期2026/6/10 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎