TL;DR:
Anthropic 发布了 Claude Sonnet 5,号称“最有 Agent 味”的 Sonnet,性能直逼老大哥 Opus 4.8。但别高兴太早,它的算账方式悄悄变了,“性价比”这杆秤,得重新掂量掂量。
家人们,Anthropic 又“整活”了。
就在大家以为大模型竞赛稍微喘口气的时候,Anthropic 冷不丁甩出一张新牌——Claude Sonnet 5。这次官方的口号喊得震天响:“迄今为止最具 Agent 属性的 Sonnet 模型”。
翻译成人话就是:这小老弟现在能自己制定计划、操作浏览器、调用终端,像个刚拿到驾照就敢上高速的新手司机,虽然有点莽,但技术还行。[^1]
“小弟”的身板,“大哥”的活?
这次 Sonnet 5 最大的亮点,就是它跟老大哥 Opus 4.8 的差距肉眼可见地缩小了。
从官方数据看,在推理、编程、工具使用这些 Agent 的“硬核指标”上,Sonnet 5 比上一代 Sonnet 4.6 猛了一大截。在某些“努力”模式下,它的能力甚至能跟 Opus 4.8 掰掰手腕。[^2]
你可能会想:这不就是“买Sonnet送Opus体验卡”吗? 先别急着冲。
算账时刻:你以为的“便宜”,可能并不便宜
Anthropic 很会做人,搞了个“限时尝鲜价”(输入$2/M,输出$10/M),[^1] 看起来比 Opus 4.8 的定价(输入$5/M,输出$25/M)香多了。
但是!这里面有个“大坑”——Sonnet 5 换了新的 tokenizer。
简单说,以前你说句“Hello”,可能算1个令牌;现在说同样的“Hello”,可能要算1.3个令牌。[^1] 这不就是“薯片袋子变大了,里面的空气也变多了”的把戏吗?
结果是啥?第三方评测机构 Artificial Analysis 一算,发现 Sonnet 5 跑一个任务的实际成本(2.29美元),竟然比 Opus 4.8 还贵了15%![^3]
网友看完直接破防:“太贵了!”[^1] 这波啊,这波叫“性能的甜头,还是被成本的镰刀收割了”。
Agent 安全:能打架,但带了“紧箍咒”
能力变强是一回事,安不安全是另一回事。Anthropic 显然也怕这位“新司机”飙车出事故。
数据还挺亮眼:在防止“提示注入攻击”(就是坏人忽悠AI干坏事)方面,Sonnet 5 仅0.93%的攻击成功率,吊打 Opus 4.8 的31.5%和 Sonnet 4.6 的50.7%。[^1] 这波防御,堪称“铁壁铜墙”。
不过,对于写病毒、搞黑客这种“危险技能”,Sonnet 5 表现得很“菜”,完全不如 Opus 4.8 和神秘模型 Mythos 5。[^1] 官方表示:不是它不会,是没教它,还给戴了“网络安全护栏”。
总结一下:Sonnet 5 到底香不香?
如果你是开发者,想要一个能干活、跑得又快又安全的 Agent 模型,Sonnet 5 绝对是一把好手,堪称“性价比刺客”——看着便宜,用起来费钱。
如果你是普通玩家,在 Claude 聊天框里用用,那它确实比 Sonnet 4.6 更聪明、更能帮你搞定复杂任务。但记得,算账的时候别只看每百万 token 的价格,多看看你实际花了多少钱。
AI 的世界里,从来就没有“免费的午餐”,只有“更贵的幻觉”。这次,Anthropic 给了你更强的能力,顺便教你做了个算术题。