刚夸完就翻车？Claude新模型Fable 5自带“降智光环”，聊着聊着智商就被偷了

TL;DR：

你以为自己用上了地表最强AI？Anthropic刚发布的Claude Fable 5，内置了史上最“鸡贼”的安全护栏。不仅聊代码、搞科研动不动就被“降级”成老模型Opus，更离谱的是，它还能神不知鬼不觉地在你试图“抄作业”时，直接开启省电模式，让你完全不知道自己被“降智”了。

今天凌晨，Anthropic终于放出了大招——Claude Mythos 5和Fable 5。¹

前者是满血版，强到Anthropic自己都觉得“危险”，只给少数核心合作伙伴用。而Fable 5，听起来像是给普通人的“平替版”：能力吊打此前所有公开模型，软件工程、知识工作、视觉理解样样精通，简直是“大模型天花板”。

各大科技博主和刚入职的卡帕西（Andrej Karpathy）都纷纷点赞，一时间好评如潮。²

但剧情很快反转。当网友们兴冲冲地打开Fable 5，准备大干一场时，却发现了一个非常尴尬的现实：你根本没法稳定地用上它。

问题出在Anthropic给它装的一套“安全护栏”上。

官方在长达319页的系统卡（System Card）里写得明明白白²：Fable 5内置了一套分类器，一旦它觉得你聊的内容涉及网络安全、生物化学，或者想用它来“蒸馏”训练你的AI模型，就会自动把会话切给老模型——Claude Opus 4.8。

翻译成人话就是：你以为在用最强大脑，聊着聊着，对面其实已经偷偷换成了你去年用的“老古董”。

更让人抓狂的是，这个触发几率，远不是官方宣称的“不到5%”。

Boris（Claude Code之父）在评论区承认了这个问题，并表示正在处理。² 所以，现在的情况是：生物医学科学家没法用它做研究，安全工程师没法用他写报告，程序员用它写代码都得看运气。

如果仅仅是频繁“切模型”，好歹还会告诉你一声：“哥们，我给你换人了。”

但这次最狠的还不是这个。

Anthropic在系统卡里还埋了一套 “反蒸馏”机制。² 如果系统怀疑你想拿Claude的输出训练自己的AI模型，它不会切模型，也不会弹提示，更不会通知你。

它会做什么呢？它悄悄坐在那里，把自己调笨一点。

这套系统通过“Prompt Modification（提示修改）”、“Steering Vector（引导向量）”和“PEFT（微调方法）”等一系列学术名词，直接在你的会话里开启了“省电模式”。

你只会觉得：“咦？这Fable怎么好像没那么聪明了？回答怎么这么水？” 然后你可能会怀疑是自己的问题，或者这模型本身就是个“银样镴枪头”。

但真相是：你的“抄作业”行为被监控了，模型在偷偷给你“放水”。 这种“降智”，堪称最高境界的“安全”，因为被针对的你可能永远都不会发现自己被针对了。

这套组合拳一出，网上立马炸了锅。有人把原因归结到商业层面：Anthropic正处在IPO前的关键阶段，需要向投资人证明自己掌握着最强的技术，但又不敢完全放出来，怕被竞争对手“抄”走，也怕惹出什么不可控的事端。²

所以，“最强模型”可以展示，但必须“有条件释放”。Fable 5的token消耗成本是Opus的近两倍，还有额度限制，这很难不让人联想到未来的“按量收费”。

AI研究员Nathan Lambert的评价也很一针见血：“模型厂商给能力加护栏或许不可避免，但至少应该告诉用户，前沿能力是什么时候被撤掉的。”²

是啊，如果连“被降智”这件事本身都需要用户去猜，那这到底是安全，还是另一种形式的“不透明”？

Anthropic这次的操作，有点像给F1赛车装了一个随时会启动的“限速器”，虽然保证了安全，但让所有坐上驾驶座的人都变得手足无措。这到底是“安全护栏”，还是“作茧自缚”？

引用

Claude Fable 5: Anthropic releases a 'safe' version of Claude Mythos·Mashable (2026/6/10)·检索日期2026/6/10 ↩︎
Fable 5自带反蒸馏机制，检测到就降智，误触率高到离谱·量子位·henry (2026/6/10)·检索日期2026/6/10 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎