TL;DR:
Anthropic 偷偷放了个大招,神话级 Claude Fable 5 直接空降 Agent Arena 榜单,把 GPT-5.5 和自家 Opus 4.8 打得找不着北。不仅跑分断层第一,还能一句话手搓游戏模拟器、还原《上古卷轴》、甚至让神经网络在浏览器里跳踢踏舞。但价格翻倍、Token 爆冲,更恐怖的是——Anthropic 发布新模型的间隔,从 42 天缩到了 12 天。
神话降临,榜单直接裂开
就在大家还在消化 GPT-5.5 那点“挤牙膏”式升级时,Anthropic 突然甩出了一张王炸——Claude Fable 5,首个公开的 Mythos 级模型。😱
Agent Arena 最新榜单刚出炉,Fable 5 就以一种“不讲武德”的姿态登顶。注意,不是险胜,是断崖式领先——综合净提升 11.2%,创下该榜单有史以来最大分差纪录。把昔日王者 GPT-5.5 和自家同门 Opus 4.8 一起斩落马下。
具体有多离谱?在“确认任务成功率”上拉开 18.2%,在“好评与投诉比”上拉开 30.6%——这两个指标最接近真实工作场景:能不能把活干完,用户满不满意。Fable 5 在两项上都做到了“别人刚及格,它已经满分交卷”。
编码界出了个“六边形战士”
如果说跑分只是纸上谈兵,那 Fable 5 在实际编码上的表现就是“降维打击”了。Code Arena 里,它狂揽 72% 的前端对决胜率,以 98 分的恐怖分差一骑绝尘。Text Arena 同样包揽王座。
但真正让人下巴掉地上的,是那些惊艳的实操演示:
- 模拟流体墨水消融:一次成型,表现力拉满,动态效果直接封神。
- 手搓网页版 Windows:登录、通知、Edge、空当接龙一应俱全,还附赠 Copilot、Minecraft 克隆和几个 3D 世界。这哪是造系统,简直是造了个生态。
- 一句话召唤《上古卷轴》(2011年度游戏):游戏工作室们,可以准备下班了。
- 把《我的世界》搬进 HTML:方块、世界、玩法全立住了,甚至自己加了背景音乐。
- 可视化神经网络的注意力机制:结果真跑了一个小语言模型在浏览器里实时生成故事,注意力的流动用粒子和物理效果铺开——这哪是 demo,这是艺术品。
更夸张的是,24 小时内手搓一个 GBA 游戏模拟器,完美运行所有游戏,不到 2 小时就超越了 Opus 4.8 的战绩。
Token 爆冲、价格翻倍,但人们依然疯抢
Fable 5 一出生,用量直接盖过自家旗舰。OpenRouter 数据显示:发布 24 小时内,Fable 5 每天处理 Token 量冲到约 2050 亿,而 Opus 4.8 是 1470 亿。
关键在价格:输入 10 美元/百万 Token,输出 50 美元/百万 Token,整整是 Opus 4.8 的两倍。用量更高、单价翻倍,沃顿商学院教授 Ethan Mollick 感叹:Fable 5 启动一个工作流,Token 直接被迅速消耗掉。但开发者依然趋之若鹜——因为贵有贵的道理,人家真的能把活干完。
比跑分更吓人的是发布节奏
Anthropic 的迭代速度已经不只是“出新模型”了,是肉眼可见地加速:
- Opus 4.7 → Opus 4.8:42 天
- Opus 4.8 → Fable 5:12 天
间隔在坍缩,跳变却在变大。当 AI 迭代的间隔加速,留给人类学会“驯服”它的那扇窗,也在以同样的速度变窄。
安全与能力的“走钢丝”
能力太强也带来滥用风险。Anthropic 的做法是给 Fable 5 加了一层“安全滤镜”:涉及网络安全、生物化学、模型蒸馏的请求,自动回退给 Opus 4.8 回答,平均影响不到 5% 的会话。同时还推出了不带防护的 Mythos 5,只开放给特定安全合作伙伴。
这一策略完美诠释了 Anthropic 的核心理念:能力开始跑赢控制,但至少他们还在努力系安全带。
最后说两句
从 GPT-5.5 到 Fable 5,差距已经不是代际,而是物种级别。真正该盯住的,从来不是某一张榜单的第一,而是那条迭代斜率的陡峭曲线。当 AI 以周为单位进化时,人类需要思考的不再是“它还能做什么”,而是**“我们还能跟得上吗?”**