Notion 贴脸开大 Claude,Opus 4.8 被送上热搜?12 小时后剧情反转,网友:我早就说它降智了!

温故智新AIGC实验室

TL;DR:

6月7日,Notion 突然发公告禁用所有 Anthropic 模型,理由是 Claude Opus 4.7/4.8“性能下降”(degraded performance),引发全网“降智”狂欢。12 小时后 Notion 产品负责人紧急澄清:纯属临时故障,不是模型变笨了。但用户们并不买账——毕竟“模型越更新越拉胯”的都市传说已经上演过无数次了。

一、事件始末:一场“降智”乌龙?

事情发生在 6 月 7 日中午 12:25(北京时间),Notion 在官方状态页上贴出了一条让 AI 圈瞬间炸锅的消息:“Anthropic 的 Opus 4.7 和 4.8 模型正在经历性能下降,导致 Notion AI 中调用这些模型的请求失败率上升。” 紧接着,Notion 果断一刀切——禁用所有 Anthropic 模型。

吃瓜群众的第一反应:天哪,连 Notion 都忍不了 Claude 降智了? 这条公告在 X 上被转发了 1200 多次,各种“实锤”截图满天飞。但诡异的是,这次故障仅持续了 18 分钟(12:43 就宣布解决),Notion 却如此兴师动众地全网公告,这操作比某些网红分手还要高调。

12 小时后,剧情迎来反转。Notion 产品负责人 Max Schoening 发推表示“astonished”(震惊)——他没想到外界会把这事解读成模型质量问题。他解释说:“性能下降只是一次临时服务中断(temporary service disruption),这种事很常见,Notion 会遇到,GitHub 会遇到,AWS 也会遇到。”[^1] 随后,Anthropic 发言人也确认:“短暂的基础设施故障导致故障率升高,问题已修复。”[^2]

所以,是 Notion 自己用词不当,把“服务宕机”写成了“performance degraded”,然后被网友们脑补了一出“降智大戏”?但问题来了:为什么大家宁愿相信是模型变蠢了,而不是基础设施抽风?

二、为什么用户不买账:模型“怀旧”运动兴起

真正引爆社区情绪的不是这次故障本身,而是它恰好踩中了过去几个月反复出现的敏感话题:大模型会随着时间偷偷“退化”吗?

早在 Opus 4.6 时期,就有 Claude Code 用户吐槽模型在代码理解、复杂任务处理上“越来越不对劲”。当时 Anthropic 后来承认发现了一些影响模型表现的系统问题,讨论才逐渐平息。而这次 Notion 公告里的“degraded performance”一词,瞬间激活了大家的 PTSD(创伤后应激障碍)。在 Reddit 和 X 上,大量用户开始分享自己的“降智体验”:

“Opus 4.8 在数学题上不如 4.6 稳定。” “新版本虽然 benchmark 高了,但写出来的代码啰嗦又自作聪明。” “我日常工作流一直保留着 Opus 4.6,新版本只做补充。”

更有意思的是,“Keep Opus 4.6”的口号开始流行——这显然是从 OpenAI 用户发起的“Keep 4o”运动那里借来的梗。看来 AI 圈也流行“版本怀旧”了:新版本再好,用户只认旧爱的朴素手感。

从技术角度看,这种矛盾其实很真实。大模型厂商追求更高的基准测试分数(比如 MMLU、HumanEval),但用户在乎的是“好不好用”——回答是否简洁、代码是否直觉、推理是否拖沓。Opus 4.7/4.8 在评测榜上确实更强了,但部分用户反馈“更聪明但更难用”,推理链越来越长,任务完成效率反而不如旧版本直接。这就像餐厅升级了顶级机器人厨师,但做出来的菜总是差点人情味。

三、技术真相与业界反思:谁在制造“降智”焦虑?

回到事件本身,Notion 和 Anthropic 都说这是基础设施故障,不是模型质量下降。但为什么这么多用户选择不相信?原因很简单:“服务器宕机”是日常小事,但“模型变笨”是信仰危机。

大模型行业存在一个经典悖论:版本迭代往往伴随着不可预见的能力漂移。Anthropic 曾公开表示,Claude 已被广泛用于内部软件开发、代码编写甚至模型训练流程中——这引出了一个大胆的猜测:如果越来越多的代码由 AI 生成,开发团队对整体代码库的理解程度下降,那么当复杂问题出现时,修复速度会不会受影响?有网友用一个厨房比喻来调侃:“如果餐厅所有菜都是机器人做的,哪天机器人出了 bug,人类厨师还能找到锅在哪吗?” [^3]

虽然没有证据表明这次故障与 AI 生成代码有关,但这个担忧本身已经值得行业重视。另外,部分用户还质疑 Notion 此举的真正动机——是不是因为 Anthropic 对 Notion 构成了竞争威胁?毕竟 Notion 也在大力推自己的 AI 工作空间,而 Claude 是它的核心供应商之一……[^4]

一个更宏大的问题浮现了:当大模型厂商拼命刷榜时,如何保证那些难以量化的用户体验(比如代码直觉、写作风格、任务效率)不会在迭代中被削弱? 这不仅仅是技术问题,更是产品哲学问题。

尾声:一次乌龙,但暴露了深层信任危机

12 小时后,Notion 恢复了 Anthropic 模型访问。官方状态页显示事件已解决,一切回归平静。但这次“贴脸开大”风波留下的余震仍在——它让我们看到,用户对“模型降智”的敏感度已经高到可以忽略事实本身的解释。或许对于 AI 公司来说,除了提升基准成绩,更应该做的是:给每个版本一个明确的“人设”,并在更新时告诉用户“我们会改哪些、不会改哪些”——哪怕这意味着要承认自己也有写 bug 的时候。

毕竟,信任这种东西,一旦被“降智”过,就再也回不去了。