TL;DR:
Anthropic 偷偷憋了两个月的“神话级”模型终于解封了:一天干完5000万行代码、自主科研反超《Science》论文,但怕你玩脱手,公开版直接带了“安全锁”——你付最强模型的钱,可能拿到的是上一代模型的答案。AI 从“工具”变成“承包商”,人类从“施法者”变成“甲方”,这波操作,刺激。
一夜之间,人类程序员有点慌?
事情是这样的:就在今天凌晨,Anthropic 突然放出了自家史上最强模型——注意,不是一款,是两款:Claude Fable 5 和 Claude Mythos 5。同一个底层“Mythos”内核,但一个系着安全带,一个彻底裸奔。而且发布的时间点非常耐人寻味:就在前两天,Anthropic 的 CEO Dario 还在公开信里呼吁“所有AI研究立刻停止”。结果48小时不到,自家最强模型连夜上架。嘴上说不要,身体很诚实。1
但抛开这些营销套路,真正让人倒吸一口凉气的,是 Mythos 5 的硬实力。先说软件工程:金融科技公司 Stripe 在5000万行 Ruby 代码库里,让 Mythos 级模型做了一次全库迁移。正常工程团队要两个多月,Mythos 5 只用了一天。一天,5000万行。相当于把一家千亿市值的软件公司从零到一重写一遍,还只用了24小时。Stripe 团队直接看傻了。2
再看看基准测试:SWE-Bench Pro 上 Fable 5 拿到 80.3%,而 GPT-5.5 只有 58.6%,Gemini 3.1 Pro 54.2%——断崖式领先。Terminal-Bench 2.1 上 88.0%,同样碾压竞争对手。3 这已经不是“修Bug”的级别了,是直接一个人(或者说一个模型)干翻一支百人团队。
自主科研:AI 当起了“研究员”,人类反而成了“甲方”
但软件工程不过是开胃菜。真正让 Mythos 5 封神的是生命科学领域的“自主科研”能力。
在没有人类协助的情况下,Mythos 5 独立执行了生物学家的全部工作流:选择结合位点、运行生物信息学工具、遇到代码报错还自己 Debug。结果呢?它设计出的14个蛋白质靶向复合物中,有9个已经进入真实药物研发管线,覆盖免疫检查点、神经退行性疾病等硬骨头。2
最炸裂的是基因组学研究。Mythos 5 自主工作了一周多,横跨138个动物物种,收集数百万个单细胞数据,自己设计并训练了一个定制机器学习模型。这个模型体积比《Science》论文中的模型小100倍,表现却直接反超了那篇顶刊论文。Anthropic 计划未来几个月内正式发表这一结果。1
沃顿商学院教授 Ethan Mollick 在测试后给出了一个极其深刻的洞察:人类正在从“施法者”变成“甲方”。他喂给 Fable 5 一份15页的复杂项目文档,只留了一段宏观需求描述。接下来9个多小时,Fable 5 在后台完全自主运行:自己生成 Agent 工作流、内部调度多个小 Agent 分别调研、写大纲、相互校对、推翻错误假设、纠错重来。人类全程没介入半步。9小时后,一个极高品质的成品直接交付到他面前。2
Mollick 说:“使用这个工具既令人愉悦又令人不安。愉悦在于,我只需提出要求,它就能实现。不安也在于,我只需提出要求,它就能实现。”2 一句话道破了无数人的复杂心情。
最锋利的刀,最坚固的鞘——但你可能用的是“钝刀”
能力越强,风险越大。Anthropic 对此心知肚明。公开版 Fable 5 内置了一套安全分类器:一旦你问的问题触发了风险(比如尝试让它写恶意软件、设计危险病毒),系统会直接降级调用上一代 Claude Opus 4.8 来回答。3 也就是说,你付的是最强模型的钱,拿到的是上一代模型的答案。
Anthropic 说超过95%的对话不会触发拦截。但剩下不到5%的用户——包括生物学家研究病毒、安全工程师做授权攻防演练——可能被误伤。社交媒体上已有反馈:问线粒体被拦了,问癌症研究被切到了 Opus 4.8。有用户无奈吐槽:“如果你是科学家或医生,这款模型并不适合你。”3
更值得关注的是数据留存政策:从 Fable 5、Mythos 5 开始,所有 Mythos 级模型流量保留30天。官方强调这些数据不会用于训练,只用于安全监控。但对企业和机构客户而言,这是非常现实的数据治理问题。想用最强能力,就要接受更高等级的安全审查和数据留存。2
价格不便宜,但“烧钱”速度更吓人
Mythos 5 与 Fable 5 统一定价:每百万输入 Token 10美元、每百万输出 Token 50美元,不到预览版的一半,只有 GPT-5.5 Pro 的六分之一。但 Token 消耗惊人——有用户反馈,在200美元/月的 Max 套餐中,Fable 5 一分钟就消耗了约14%的5小时配额,折合下来大概一分钟一美元。1
这揭示了一个被数据掩盖的事实:Mythos 5 的“封神”和“昂贵”是一体两面。它能一天搞定5000万行代码,但它烧 Token 的速度也会让个人用户肉疼。它能自主做一周科研并产出 Science 级成果,但只有机构客户才烧得起这笔算力。2
写在最后:神话降临,但代价才刚刚开始计算
Anthropic 正在押注一件事:当 AI 能从“帮你写代码”进化到“替你完成科研项目”时,企业愿意为后者支付的价格,将远远高于前者。Mythos 5 就是这场博弈的第一张牌。
今天,神话降临。但神话的代价——无论是金钱上的、安全上的,还是人类角色上的——才刚刚开始被计算。当 AI 不再需要你“使用”,只需要你“委托”的时候,我们人类的位置还剩什么?这场游戏,谁又是真正的“甲方”?12