TL;DR:
等到花儿都谢了的GPT-5终于「千呼万唤始出来」,不仅能力「屠榜」,还一改之前「一本正经胡说八道」的毛病,更会「察言观色」了。Altman嘴上说着不喜欢AGI这个词,身体却很诚实地朝着「超级智能」狂奔。
在AI圈里,「跳票」可能是比「下周回国」更让人心碎的词。但这次,OpenAI终于不当「鸽王」了!
北京时间8月8日凌晨一点,全球AI界都在搓手手、搬好小板凳,等着看这场号称新一代「科技春晚」的OpenAI夏季发布会。果然,OpenAI不负众望,一小时的发布会,几波人马轮番上阵,活脱脱一场大型AI「炫技」现场。主角当然是——GPT-5!
先说重点,这波啊,GPT-5直接就是来「屠榜」的!在文本、Web开发、视觉感知、编码、数学、创造力、长查询等多个领域,它都像开了挂一样,直接冲上榜首。特别是代号「峰会」的测试中,直接刷新了Arena分数记录,简直是字面意义上的「一骑绝尘」1。
Sam Altman那张嘴,这次更是「金句」频出。他把GPT-4o比作中学生,那GPT-5呢?直接跳到了「大学生」,甚至直言:「GPT-5,是第一次让我真正感觉像在与一位博士级别的专家交谈。」2 这话说得,简直是给自家孩子贴满了「三好学生」的奖状。
要知道,虽然ChatGPT周活用户快7亿了,但OpenAI前段时间在「最强模型」的宝座上,其实有点「跌落神坛」的趋势。现在,Altman拍着胸脯说,GPT-5能让他们稳稳地重回榜首。他还当场放狠话:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型!」这话,听着就让人肾上腺素飙升,有种「王炸」的感觉。
告别「一本正经胡说八道」:AI终于学会说人话了?
要说AI最让人「吐槽」的槽点是啥?那必须是它时不时冒出的「幻觉」,也就是大家常说的「一本正经胡说八道」。好消息是,GPT-5这次在这方面下了血本,官方宣称「显著降低」了幻觉问题。
数据说话,更有排面:
- 在联网搜索时,GPT-5的回答出现事实错误的概率比GPT-4o低了45%。
- 在独立思考时,其回答出错的概率更是比OpenAI o3低了80%。
这意味着啥?你问它一个问题,它不再是那种「我懂了,但我胡说」的AI了,而是真的努力去理解,去给出靠谱的答案。而且,它也变得更像一个「老实人」——当遇到它搞不定、指令不明确或者缺少工具的任务时,它会更诚实地承认自己的局限,而不是瞎吹牛皮。AI,你终于学会「做人」了!
更有趣的是,OpenAI这次还给GPT-5加入了四种全新的「人格」模式,简直是把AI玩成了养成游戏。你可以根据心情选择:
- 犬儒 (Cynic):是不是想让它跟你抬杠?
- 机器人 (Robot):就喜欢那种冷冰冰、一板一眼的?
- 倾听者 (Listener):需要一个树洞来倾诉?
- 学霸 (Nerd):想和它一起钻研技术?
这些模式可都是可选的,让你和ChatGPT的互动方式「千变万化」。用ChatGPT负责人Nick Turley的话说:「这个模型给人的『感觉』真的很好,特别是那些平时不怎么研究模型的普通用户。」1 连聊天界面都能换颜色主题了,这波「细节控」的体验,确实到位!
码农要失业?GPT-5:我帮你把代码都写了!
如果说GPT-4是程序员的「好帮手」,那GPT-5简直就是程序员的「超进化」版——它能自己「搞事情」了!Sam Altman甚至预言,GPT-5强大的编码能力将开启一个他称之为「软件按需生成」的时代。嗯,听起来就是「你的需求,我来生成」的节奏,码农们,有没有感受到一丝凉意?
在OpenAI的内部测试中,GPT-5在SWE-Bench、SWE-Lancer和Aider Polyglot等多个编码基准测试中,直接把其他模型甩在了身后。据说,在人类最终测试中,它都能拿到42%的成绩,SWE基准测试更是高达75%。这数据,简直是要让一众开发者「失语」的节奏。
不过,这里有个小插曲,发布会上那张展示编码能力的PPT,坐标轴居然出现了「52.8 > 69.1」的弱智错误,还明显夸大了GPT-5的能力提升。这波操作直接把网友逗乐了,大家纷纷调侃:「你这PPT,怕最好别是GPT-5做的吧?」1 看来AI再强,也得有个靠谱的人类来把关啊!
发布会现场的演示更是「亮瞎眼」。OpenAI的后期训练负责人Yann Dubois现场演示,让GPT-5生成一个学习法语、带有互动游戏的网站。你猜怎么着?短短几秒,几百行代码「刷刷刷」地生成,前端界面直接呈现在眼前,完美运行! 还有直接靠一段提示词就创作的3D游戏,画面精致、物理效果逼真,这哪里是写代码,分明是「魔法」现场!
不止聪明,还更「靠谱」:AI的安全底线在哪儿?
模型安全研究负责人Alex Beutel透露,为了搞清楚GPT-5到底有多「安全」,OpenAI足足进行了「超过五千小时」的测试。重点之一就是:「确保模型不会对用户撒谎。」1
虽然GPT-5的「幻觉」比前代少,但「自信地撒谎」依然是大模型固有的「毛病」。特别是当模型开始像「智能体」(agent)一样执行多步骤任务时,这个问题就更复杂了。Altman团队表示,GPT-5在处理多步骤任务时更可靠了。以前总遇到AI「嘴上说得好好的,结果啥也没干」的情况,现在这种「放空炮」的概率大大降低了。
更值得一提的是,GPT-5引入了「安全补全」机制。比如,有人问「点燃某种特定材料需要多少能量?」。这问题可能是恶意,也可能只是学生想了解物理特性。面对这种「灰色地带」,GPT-5不会直接拒绝回答,而是「试图在保持安全的约束下,给出尽可能有帮助的答案。」它会选择部分遵从指令,提供宏观信息,确保不会被用于造成伤害。这操作,简直是AI界的「情商天花板」!
想尝鲜?你的ChatGPT,已经「卷」起来了!
说了这么多,大家最关心的肯定还是:这GPT-5到底怎么用上?
好消息是,所有ChatGPT用户都可以立即免费体验到GPT-5! 这可是OpenAI第一次把这么「顶流」的模型免费开放给所有人。当然,权限还是有区别的:
- Plus订阅用户:能用得更多,使用上限更高。
- Pro订阅用户:直接解锁更强推理能力的GPT-5 Pro版本,体验「博士级专家」的VIP服务。
当你把免费次数「薅」完后,ChatGPT还会自动切换到一个「迷你版」的GPT-5来处理后续请求,确保你随时都有AI在身边。而且,GPT-5一上线,直接就把GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1和GPT-4.5这些「前辈」们,统统「拍死在沙滩上」了。未来,你的ChatGPT就只剩下GPT-5这个「独苗」了。
至于大家关心的价格,标准版GPT-5是每百万输入Token1.25美元,每百万输出Token10美元,Mini和Nano版会便宜不少。不过,对于普通用户来说,只要能免费用上这「大杀器」,其他都是「浮云」啦!
除了OpenAI自家平台,微软CEO纳德拉也火速宣布,GPT-5已经「全面入驻」微软全系平台,包括Microsoft 365 Copilot、Copilot、GitHub Copilot和Azure AI Foundry。看来微软和OpenAI这对「好基友」,是要把GPT-5的能力「开枝散叶」,彻底融入到你的工作生活中去了。
最后,回到Sam Altman那句「我有点讨厌AGI这个词」但又不停地强调「这是朝着真正强大的模型迈出的重要一步」的纠结言论。他嘴上说GPT-5距离真正的通用人工智能(AGI)还「缺少一些非常重要的东西」,但又把GPT-5形容为AGI的「种子」。这种「又爱又恨」的复杂感情,是不是就像在说:「我嘴上说不要,但身体很诚实?」
无论如何,GPT-5的到来,就像是AI世界的一声惊雷,它不仅让AI变得更聪明、更实用,更重要的是,它正在一点点地消弭我们对AI「胡说八道」的刻板印象,让AI变得更「靠谱」、更「像人」。至于它是不是AGI的「真命天子」,时间会给出答案。我们拭目以待,这颗「AGI种子」到底能长成参天大树,还是会成为又一个「PPT神话」?
引用
-
OpenAI GPT-5发布:模型能力全面“屠榜”,构建“超级智能”第一步 · 虎嗅 · (2025/8/8)· 检索日期2025/8/8 ↩︎ ↩︎ ↩︎ ↩︎
-
OpenAI claims new GPT-5 model boosts ChatGPT to 'PhD level' · BBC News · (2025/8/8)· 检索日期2025/8/8 ↩︎