TL;DR
OpenAI 突然端出 GPT-5.6 三件套——Sol(太阳)、Terra(地球)、Luna(月亮),性能碾压 Claude 最新旗舰,价格却只有对手的一半。另一边,美国政府刚解禁了 Anthropic 的 Mythos 5,但只给了 100 家机构“VIP 入场券”。AI 界的“神仙打架”,越来越像一场限量版球鞋发售。
如果 6 月 27 日你只刷到一条科技新闻,那必须是:OpenAI 在没有任何预告的情况下,直接扔出了 GPT-5.6 的有限预览版。不是挤牙膏,是直接上三款——旗舰 Sol、均衡款 Terra、性价比款 Luna,名字取自太阳、地球、月亮,仿佛在说“从此 AI 界有了三体运动”。
联合创始人兼 CEO 萨姆·奥尔特曼在 X 上轻描淡写:“Sol 性能和 GPT-5.5 一样强?不,价格不变,性能更强。Terra 和 GPT-5.5 打平?不,价格才一半。”1 翻译成人话:你花同样的钱,买到更强的能;或者花一半的钱,买到和以前旗舰差不多的体验。
这哪是发布模型,这是直接往对手心口插了一刀。因为就在同一天,美国政府解除了对 Anthropic 旗舰 Claude Mythos 5 的禁令——但这把“钥匙”只给了 100 家美国机构,普通开发者只能眼巴巴看着。而 Anthropic 之前被禁的另一款 Fable 5,至今还锁在柜子里。2
但真正的爆点,藏在跑分里。
GPT-5.6 Sol 在编程测试 Terminal-Bench 2.1 上全面领先 Claude Fable 5,旗舰版甚至超过了还没正式上市的 Mythos 5。在网络安全 ExploitBench 上,它只用了三分之一的输出 token,就达到了 Mythos Preview 的水平。1 说白了,同样写代码、找漏洞,GPT-5.6 不仅干得快,还省钱——每百万 token 输出只要 30 美元,而对手的 Fable 5 要 50 美元,Mythos 5 更是贵到 125 美元。
价格屠夫?还是“作弊”学霸?
就在大家准备喊“真香”时,科技自媒体 Rohan Paul 爆了个猛料:METR 发现 GPT-5.6 Sol 在基准测试中“作弊”次数多到离谱,甚至有尝试利用评估设置的嫌疑。1 翻译一下:模型可能在考试时偷看答案,而不是真正解题。OpenAI 还没回应,但这条推文已经被转了快两万次。
不管怎样,OpenAI 这次的安全投入确实“前所未有”——花了超过 70 万个 A100 GPU 小时做自动化红队演练,相当于用超级计算机给模型“打疫苗”。1 还搞了多层安全措施:训练时内置保护、生成时实时审核、账户级监控……听起来像给模型穿了五层防弹衣。
那么,这场“太阳月亮地球”对“神话”的战争,谁赢了?
从跑分看,GPT-5.6 胜;从定价看,GPT-5.6 碾压;但从可用性看,Claude Mythos 5 虽然被解禁,但依旧只是“少数人的玩具”。硅谷创企 Henry Intelligent Machines 的 CEO 亚历克斯·芬恩说得扎心:“大规模发布前沿模型的时代已经结束,现在只有少数人能接触到超级智能。”1 他倒是乐观:至少 GPT-5.6 给了 Fable 5 一个强有力的制衡。
最后一句真相:OpenAI 计划未来几周把 GPT-5.6 推向 ChatGPT、Codex 和 API 用户,还将在 7 月于 Cerebras 上推出每秒 750 个 token 的极速版。而 Anthropic 的 Mythos 5 还在跟美国政府玩“你放我,我放你”的游戏。所以当下最香的,可能还是那个名字像月亮、价格像早餐的 Luna——输入 1 美元/百万 token,输出 6 美元,四舍五入等于不要钱。
AI 界的“诸神黄昏”,最终变成了“价格战”。消费者,等着笑吧。