Notion 贴脸开大 Claude，Opus 4.8 被送上热搜？12 小时后剧情反转，网友：我早就说它降智了！

TL;DR：

6月7日，Notion 突然发公告禁用所有 Anthropic 模型，理由是 Claude Opus 4.7/4.8“性能下降”（degraded performance），引发全网“降智”狂欢。12 小时后 Notion 产品负责人紧急澄清：纯属临时故障，不是模型变笨了。但用户们并不买账——毕竟“模型越更新越拉胯”的都市传说已经上演过无数次了。

一、事件始末：一场“降智”乌龙？

事情发生在 6 月 7 日中午 12:25（北京时间），Notion 在官方状态页上贴出了一条让 AI 圈瞬间炸锅的消息：“Anthropic 的 Opus 4.7 和 4.8 模型正在经历性能下降，导致 Notion AI 中调用这些模型的请求失败率上升。” 紧接着，Notion 果断一刀切——禁用所有 Anthropic 模型。

吃瓜群众的第一反应：天哪，连 Notion 都忍不了 Claude 降智了？ 这条公告在 X 上被转发了 1200 多次，各种“实锤”截图满天飞。但诡异的是，这次故障仅持续了 18 分钟（12:43 就宣布解决），Notion 却如此兴师动众地全网公告，这操作比某些网红分手还要高调。

12 小时后，剧情迎来反转。Notion 产品负责人 Max Schoening 发推表示“astonished”（震惊）——他没想到外界会把这事解读成模型质量问题。他解释说：“性能下降只是一次临时服务中断（temporary service disruption），这种事很常见，Notion 会遇到，GitHub 会遇到，AWS 也会遇到。”[^1] 随后，Anthropic 发言人也确认：“短暂的基础设施故障导致故障率升高，问题已修复。”[^2]

所以，是 Notion 自己用词不当，把“服务宕机”写成了“performance degraded”，然后被网友们脑补了一出“降智大戏”？但问题来了：为什么大家宁愿相信是模型变蠢了，而不是基础设施抽风？

二、为什么用户不买账：模型“怀旧”运动兴起

真正引爆社区情绪的不是这次故障本身，而是它恰好踩中了过去几个月反复出现的敏感话题：大模型会随着时间偷偷“退化”吗？

早在 Opus 4.6 时期，就有 Claude Code 用户吐槽模型在代码理解、复杂任务处理上“越来越不对劲”。当时 Anthropic 后来承认发现了一些影响模型表现的系统问题，讨论才逐渐平息。而这次 Notion 公告里的“degraded performance”一词，瞬间激活了大家的 PTSD（创伤后应激障碍）。在 Reddit 和 X 上，大量用户开始分享自己的“降智体验”：

“Opus 4.8 在数学题上不如 4.6 稳定。” “新版本虽然 benchmark 高了，但写出来的代码啰嗦又自作聪明。” “我日常工作流一直保留着 Opus 4.6，新版本只做补充。”

更有意思的是，“Keep Opus 4.6”的口号开始流行——这显然是从 OpenAI 用户发起的“Keep 4o”运动那里借来的梗。看来 AI 圈也流行“版本怀旧”了：新版本再好，用户只认旧爱的朴素手感。

从技术角度看，这种矛盾其实很真实。大模型厂商追求更高的基准测试分数（比如 MMLU、HumanEval），但用户在乎的是“好不好用”——回答是否简洁、代码是否直觉、推理是否拖沓。Opus 4.7/4.8 在评测榜上确实更强了，但部分用户反馈“更聪明但更难用”，推理链越来越长，任务完成效率反而不如旧版本直接。这就像餐厅升级了顶级机器人厨师，但做出来的菜总是差点人情味。

三、技术真相与业界反思：谁在制造“降智”焦虑？

回到事件本身，Notion 和 Anthropic 都说这是基础设施故障，不是模型质量下降。但为什么这么多用户选择不相信？原因很简单：“服务器宕机”是日常小事，但“模型变笨”是信仰危机。

大模型行业存在一个经典悖论：版本迭代往往伴随着不可预见的能力漂移。Anthropic 曾公开表示，Claude 已被广泛用于内部软件开发、代码编写甚至模型训练流程中——这引出了一个大胆的猜测：如果越来越多的代码由 AI 生成，开发团队对整体代码库的理解程度下降，那么当复杂问题出现时，修复速度会不会受影响？有网友用一个厨房比喻来调侃：“如果餐厅所有菜都是机器人做的，哪天机器人出了 bug，人类厨师还能找到锅在哪吗？” [^3]

虽然没有证据表明这次故障与 AI 生成代码有关，但这个担忧本身已经值得行业重视。另外，部分用户还质疑 Notion 此举的真正动机——是不是因为 Anthropic 对 Notion 构成了竞争威胁？毕竟 Notion 也在大力推自己的 AI 工作空间，而 Claude 是它的核心供应商之一……[^4]

一个更宏大的问题浮现了：当大模型厂商拼命刷榜时，如何保证那些难以量化的用户体验（比如代码直觉、写作风格、任务效率）不会在迭代中被削弱？这不仅仅是技术问题，更是产品哲学问题。

尾声：一次乌龙，但暴露了深层信任危机

12 小时后，Notion 恢复了 Anthropic 模型访问。官方状态页显示事件已解决，一切回归平静。但这次“贴脸开大”风波留下的余震仍在——它让我们看到，用户对“模型降智”的敏感度已经高到可以忽略事实本身的解释。或许对于 AI 公司来说，除了提升基准成绩，更应该做的是：给每个版本一个明确的“人设”，并在更新时告诉用户“我们会改哪些、不会改哪些”——哪怕这意味着要承认自己也有写 bug 的时候。

毕竟，信任这种东西，一旦被“降智”过，就再也回不去了。