TL;DR:
Anthropic闷声放了个大招:Sonnet 5(代号耳廓狐)今天直接对所有免费和Pro用户开放。这货不仅性能直逼旗舰Opus 4.8,价格还只要后者的六成,SWE-bench Pro直接反杀GPT-5.5,主打一个“花小钱办大事”——打工人的AI终于可以放心用了。
你还在为每个月25美元(Opus 4.8)还是30美元(GPT-5.5)的旗舰API账单挠头?今天Anthropic直接掀了桌子。
就在刚刚,Claude Sonnet 5,代号Fennec(耳廓狐——撒哈拉沙漠里最小的狐狸),上线了。
别被“小”字骗了。这小狐狸咬起代码来,比隔壁家的大块头还猛。Anthropic官方一句话定调:这是史上最能干活的Sonnet。
打工版?不,这是“老板版”的降维打击
先看数据,咱们理性吃瓜。
- SWE-bench Pro(编程硬仗):Sonnet 5拿下63.2%,前代Sonnet 4.6只有58.1%,老对手GPT-5.5是58.6%,连Gemini 3.5 Flash也只有55.1%。旗舰Opus 4.8虽然以69.2%暂时领先,但请注意——Sonnet 5的价格只有Opus的60%。
- 终端操作(Terminal-Bench 2.1):直接飙到80.4%,比Sonnet 4.6猛涨13个百分点,距离Opus 4.8的82.7%只有一步之遥。
- “人类最后的考试”:跨学科推理基准上,Sonnet 5带工具拿到57.4%,Opus 4.8是57.9%,差0.5个百分点。GPT-5.5?52.2%,还在后面吃土。
- 电脑操控(OSWorld):81.2% vs Opus 4.8的83.4%,依然逼近。
一句话总结:几乎每一项指标,Sonnet 5都踩进了Opus 4.8的90%–100%区间。 用行话说,这叫“花Sonnet的钱,买Opus九成的脑子”。12
而对普通用户更友好的是——即日起,所有Free和Pro用户的默认模型直接升级为Sonnet 5。Pro方案月费20美元,Max方案100美元起,但模型能力直接对标旗舰3。打工人表示:这波可以。
价格战:限时促销,但悄悄埋了个坑
价格才是这次的“必杀技”。API定价方面,Anthropic搞了个限时大促:
- 促销期(到8月31日):输入**$2**/百万tokens,输出**$10**/百万tokens
- 恢复后:输入$3/输出$15
- 对比Opus 4.8:输入$5/输出$25
- 对比GPT-5.5标准版:输入$5/输出$30
促销期内价格只有Opus的四成,恢复后也只要六成1。开发者的钱包今晚先投了票。
但是(转折来了),Anthropic表面诚意满满,细节里却藏着小心思。Sonnet 5换了全新的tokenizer,同样一段输入,token数量可能会膨胀1.0到1.35倍。等促销期一过,原价$3/$15再叠加上膨胀效应,真金白银的花销肯定要比用Sonnet 4.6肉痛一截1。不过即便如此,跟Opus比依然是碾压级的差距,认了。
安全反向杀全家:中端模型的硬气
最让人意外的是安全能力。System Card里藏着Sonnet 5最被低估的一面。
- 提示注入攻击成功率:0.19%,和Opus 4.8持平。GPT-5.5是3.08%,Gemini 3.5 Flash是6.66%——差距肉眼可见。
- 浏览器注入防御:攻击成功率仅0.93%,而Mythos 5是29.7%、Opus 4.8是31.5%!一个卖$2的中端模型,反杀了全家族和所有竞争对手的旗舰。开启防护措施后直接降到0%。
- 恶意代码注入:从Sonnet 4.6的45.26%暴降到0.29%,改善150倍。
- Firefox 147漏洞利用:Mythos 5能写出88.4%的可用exploit,Opus 4.8是8.8%,Sonnet 5是0.0%。能写顶级业务代码,但写不出一个可用的漏洞利用程序——这种“偏科”很AI安全。
当然,副作用也有:不对齐行为评分2.53(满分10),比Sonnet 4.6的2.89有改善,但高于Opus 4.8的2.10和Mythos Preview的1.95。通俗说:变强了,也变得更有主见了12。
不争皇冠,专砍腰部
这一波操作,看得人直呼“Anthropic打明牌”。
所有人都盯着顶端打的时候,Anthropic在腰部开了一枪。Sonnet 5卡在一个极其精准的位置上:向上能力逼近Opus 4.8和GPT-5.5,向下价格接近Gemini 3.5 Flash级别。OpenAI刚把价格相较前代翻了倍,Anthropic转手把Sonnet 5的入门价压到了3美元1。
那些原本犹豫要不要为旗舰付费的开发者,现在有了一个杀伤力十足的替代选项。以前觉得Opus太贵舍不得用、Sonnet又不够好的尴尬,今天没了。
对多Agent架构尤其利好:同样的预算,以前只能跑一个Opus级Agent,现在可以跑两到三个并行的Sonnet。多Agent架构的成本门槛,被一脚踹低了1。
最后说一句
Fable 5(Anthropic的顶级旗舰)究竟何时归来还是个未知数,传说它即将回归但强制实名且仅限美国用户1。但Sonnet 5此刻已经稳稳站在这里,性能直接怼到了Opus的门槛上。
对于绝大多数开发者和打工人来说,它就是接下来相当长一段日子里,手边最能打也最好用的那个Claude。
什么?你还在用GPT-5.5?兄弟,该跳槽了。