Sonnet 5 来了：性能“蹭”上Opus，钱包却“抖”了三抖？

温故智新AIGC实验室

Anthropic 发布了 Claude Sonnet 5，号称“最有 Agent 味”的 Sonnet，性能直逼老大哥 Opus 4.8。但别高兴太早，它的算账方式悄悄变了，“性价比”这杆秤，得重新掂量掂量。

就在大家以为大模型竞赛稍微喘口气的时候，Anthropic 冷不丁甩出一张新牌——Claude Sonnet 5。这次官方的口号喊得震天响：“迄今为止最具 Agent 属性的 Sonnet 模型”。

翻译成人话就是：这小老弟现在能自己制定计划、操作浏览器、调用终端，像个刚拿到驾照就敢上高速的新手司机，虽然有点莽，但技术还行。[^1]

这次 Sonnet 5 最大的亮点，就是它跟老大哥 Opus 4.8 的差距肉眼可见地缩小了。

从官方数据看，在推理、编程、工具使用这些 Agent 的“硬核指标”上，Sonnet 5 比上一代 Sonnet 4.6 猛了一大截。在某些“努力”模式下，它的能力甚至能跟 Opus 4.8 掰掰手腕。[^2]

你可能会想：这不就是“买Sonnet送Opus体验卡”吗？ 先别急着冲。

Anthropic 很会做人，搞了个“限时尝鲜价”（输入$2/M，输出$10/M），[^1] 看起来比 Opus 4.8 的定价（输入$5/M，输出$25/M）香多了。

但是！这里面有个“大坑”——Sonnet 5 换了新的 tokenizer。

简单说，以前你说句“Hello”，可能算1个令牌；现在说同样的“Hello”，可能要算1.3个令牌。[^1] 这不就是“薯片袋子变大了，里面的空气也变多了”的把戏吗？

结果是啥？第三方评测机构 Artificial Analysis 一算，发现 Sonnet 5 跑一个任务的实际成本（2.29美元），竟然比 Opus 4.8 还贵了15%！[^3]

网友看完直接破防：“太贵了！”[^1] 这波啊，这波叫“性能的甜头，还是被成本的镰刀收割了”。

能力变强是一回事，安不安全是另一回事。Anthropic 显然也怕这位“新司机”飙车出事故。

数据还挺亮眼：在防止“提示注入攻击”（就是坏人忽悠AI干坏事）方面，Sonnet 5 仅0.93%的攻击成功率，吊打 Opus 4.8 的31.5%和 Sonnet 4.6 的50.7%。[^1] 这波防御，堪称“铁壁铜墙”。

不过，对于写病毒、搞黑客这种“危险技能”，Sonnet 5 表现得很“菜”，完全不如 Opus 4.8 和神秘模型 Mythos 5。[^1] 官方表示：不是它不会，是没教它，还给戴了“网络安全护栏”。

如果你是开发者，想要一个能干活、跑得又快又安全的 Agent 模型，Sonnet 5 绝对是一把好手，堪称“性价比刺客”——看着便宜，用起来费钱。

如果你是普通玩家，在 Claude 聊天框里用用，那它确实比 Sonnet 4.6 更聪明、更能帮你搞定复杂任务。但记得，算账的时候别只看每百万 token 的价格，多看看你实际花了多少钱。

AI 的世界里，从来就没有“免费的午餐”，只有“更贵的幻觉”。这次，Anthropic 给了你更强的能力，顺便教你做了个算术题。