GPT-5炸场:OpenAI又搞了个什么“大动作”?是真香还是“就这”?

温故智新AIGC实验室

TL;DR:

OpenAI带着传说中的GPT-5“闪现”了!1 这次不仅编程、写作、多模态能力全面“开挂”,连AI最爱“一本正经胡说八道”的毛病都收敛了不少。但发布会上的“神级”PPT和马斯克的“隔空补刀”,又让网友们直呼:这波到底是“王炸”,还是“虚晃一枪”?

AI圈又炸锅了!GPT-5,这位“博士级专家”真的来了?

就在AI热浪席卷全球的当下,OpenAI又投下了一颗“深水炸弹”——北京时间8月8日凌晨1点,他们的最新旗舰模型GPT-5正式登场!1 首席执行官Sam Altman更是霸气宣言,称GPT-5是“迈向通用人工智能(AGI)的重要一步”,就像一位“真正的博士级专家”,精通你需要的任何领域。这话一出,直接把期待值拉满,简直是给AI圈喂了一颗“超级兴奋剂”!

不过,发布会刚落幕,网友们的评价就跟坐了“过山车”一样,直接两极分化。有人高呼“超预期,YYDS!”,也有人直接甩出“就这?”的灵魂拷问。这到底是怎么回事?难道AI巨头也玩起了“凡尔赛”?别急,让咱们一起扒扒看GPT-5到底有哪些“黑科技”!

“全面进化”还是“原地踏步”?:GPT-5到底秀了啥肌肉!

想象一下,你有一个无所不能的超级助理,编程、写稿、看图、甚至看病都能给你专业建议——GPT-5似乎就是奔着这个目标去的。OpenAI在发布会上,那是把GPT-5的能力秀了个遍,简直是“技能树点满了”!

  • 编程能力直接“刷新天花板”: GPT-5在代码修复测试(SWE-Bench Verified)中豪取74.9%的高分,多语言编程测试(Aider Polyglot)更是高达88%!1 这意味着,它不只是能写个HelloWorld,而是能帮你快速生成一个带互动游戏的法语学习网站,还能自动处理交互设计、进度记录。这是要让“码农”们看了直冒冷汗的节奏啊,毕竟,几分钟一个精致网站,这效率谁顶得住?

  • 多模态理解,不光会看字,还会看图看视频! 以前AI看图识字那是基本操作,现在GPT-5更进一步,不仅在视觉、视频、空间和科学推理等多个多模态基准测试中表现出色,还能更准确地推理图像和其他非文本输入。1 无论是解释图表、总结演示文稿照片,还是回答关于图表的问题,GPT-5都能“妙语连珠”。这下,那些复杂的图表,再也不用担心“看不懂,问不明白”了!

  • 写作能力“Pro Max版”,你的专属AI文豪! OpenAI这次毫不谦虚地表示,GPT-5是“迄今为止最强大的写作协作工具”。1 只要你有个“粗略的想法”,它就能帮你转化成“引人入胜、富有文学深度和节奏感的文字作品”。这简直是文字工作者的“救星”,以后写文章、写报告、甚至写情书,都能让AI帮你润色,秒变“文采斐然”的灵魂作家!

  • 医疗咨询,AI医生要上线? 在HealthBench Hard(医疗问答测试)中,GPT-5拿下了46.2%的成绩。OpenAI表示,它更像一个“积极的思想伙伴”,会主动标记潜在问题,提出疑问,然后给出更精确可靠的答案。1 想象一下,把体检报告上传给AI辅助判断,甚至在复杂病情面前,让AI结合海量信息分析报告,辅助做出正确的诊疗决策。这波操作,简直就是“未来已来”的既视感!

  • 告别“一本正经胡说八道”,幻觉率“肉眼可见”地降低了! AI模型最大的“槽点”之一就是爱“幻觉”,常常“一本正经地胡说八道”。但GPT-5在这方面取得了突破:启用网页搜索时,事实错误率比GPT-4o降低约45%;深度思考模式下,错误率更是比OpenAI o3降低近80%!1 更难得的是,它在严守事实的同时,指令遵循能力也大大跃升,连“拍马屁”的倾向都大大降低了。看来,AI也学会了“实事求是”,不再当“舔狗”了!

  • AI也要玩“人设”了?多重“人格模式”任你选! 为了让对话更有趣,GPT-5还引入了“批判者(Cynic)”、“分析者(Robot)”、“倾听者(Listener)”和“书呆子(Nerd)”四种“人格模式”。1 想让AI用“书呆子”模式给你详细解释量子力学原理?没问题!想让它以“倾听者”模式给你情感支持?安排!这下,AI不只是工具,简直就是“最佳损友”兼“知心大姐姐”了。

钱包警告!OpenAI的“钞能力”与“卷王”API

技术再牛,最终还是要落到“银子”上。OpenAI的商业化策略,也颇具看点,简直是“把羊毛薅出了新花样”,但又给足了诚意。

  • 分级套餐,打工人、土豪各取所需: 免费用户也能用GPT-5(普通版,带推理功能),但有每月额度限制,超了就自动切换到“轻量型”的GPT-5-mini。Plus订阅用户有更高额度。而那些“不差钱”的“土豪”们,每月200美元的Pro套餐直接给你“无限使用权”,还能解锁更强的GPT-5 Pro和GPT-5 Thinking版本。这波操作,OpenAI把“用户分层”玩明白了。

  • API定价,友商们,你们的压力来了! 对于开发者来说,OpenAI的API定价简直是“卷王”级别的。GPT-5输入1.25美元/百万tokens,输出10美元/百万tokens;GPT-5 mini输入0.25美元/百万tokens,输出2美元/百万tokens;GPT-5 nano输入0.05美元/百万tokens,输出0.4美元/百万tokens。1 对比主要竞争对手Anthropic和Google,GPT-5不仅有竞争力,甚至显得“更为亲民”。这下,其他AI大厂可要“坐不住”了,AI领域的“价格战”看来是要升级了。

PPT翻车、老马补刀:AI巨头的“凡尔赛”与“打脸”时刻

说了这么多GPT-5的“高光时刻”,也不能忽略那些“槽点”。毕竟,AI大佬们的发布会,也难免有“翻车”的时候。

  • “神级”PPT,奥特曼:GPT-6来改! 发布会上,OpenAI介绍GPT-5性能时放了几页PPT,其中一个图表显示“52.8 > 69.1”,这操作直接让网友们“血压飙升”,质疑OpenAI的严谨性。1 Sam Altman一句“GPT-6来改进”的调侃,虽然缓解了现场尴尬,但网友们可不买账,纷纷表示“这PPT水平,是GPT-5自己做的吗?” 还有演示中“神奇的大炮轨迹”,也是让人无力吐槽,简直是“大型翻车现场”。

  • 说好的“幻觉降低”呢?网友:我信你个鬼! 尽管OpenAI信誓旦旦地说GPT-5的幻觉率大幅降低,但在实际测试中,模型仍会因为训练数据的局限性而犯错。1 官方Demo里“幻觉降低”的片段,更是被眼尖的网友们“揪出了错误”。看来,AI的“去幻觉”之路,依然“道阻且长”。

  • 马斯克“隔空补刀”,Grok 5年底见! “相爱相杀”的AI圈,怎么能少了“X皇”马斯克的身影?他老人家也没闲着,立马转发了GPT-5在ARC-AGI-2测试中未能击败Grok 4的截图,还不忘“补刀”一句,表示今年年底前发布Grok 5。1 这下,AI“武林大会”的火药味又浓了几分,好戏还在后头呢!

  • 中国AI黑马 DeepSeek R1 杀疯了! 别以为AI圈只有美国巨头在“内卷”。来自中国的AI创业公司DeepSeek R1最近可是“杀疯了”,其表现震撼了Nvidia和微软这样的AI巨头,甚至抹去了美国股市万亿美元的市值,成为苹果App Store下载量最高的应用。2 连Sam Altman都称DeepSeek R1是“令人印象深刻的模型”,并强调OpenAI也将“很快推出更好的模型”。2 这场全球AI竞赛,真是越来越好看了。

写在最后:AGI的“关键时刻”?未来是“卷”出来的!

GPT-5的到来,无疑再次激起了人们对通用人工智能(AGI)的无限遐想。Sam Altman曾透露,GPT-5与GPT-4之间的飞跃,将与GPT-4与GPT-3之间的飞跃一样显著,它可能是一个“关键时刻”,对企业来说将更加有用。23

虽然发布会有点“小插曲”,竞争对手也“虎视眈眈”,但GPT-5在编程、写作、多模态、医疗咨询以及降低幻觉方面的进步,确实让人看到了AI未来无限的可能性。它正在努力成为一个更聪明、更可靠、也更有“人格”的数字伙伴。

未来的AI世界,注定是一场“你追我赶”的激烈竞赛。谁能真正解决幻觉、谁能提供更强的上下文理解、谁能更好地与现实世界互动,谁就可能成为下一个“AI王者”。GPT-5只是这场“大片”的一个新篇章,真正的AGI“超能力”,我们拭目以待!

引用


  1. GPT-5发布!OpenAI - 图文详情——科普中国资源服务·科普中国·重庆市科学技术协会(2025/08/08)·检索日期2024/07/28 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. GPT-5: OpenAI的新模型会超越人类吗? - Expertise AI·Expertise AI(未知)·检索日期2024/07/28 ↩︎ ↩︎ ↩︎

  3. 关于GPT-5 的新细节,来自Sam Altman : r/singularity - Reddit·Reddit·(未知)·检索日期2024/07/28 ↩︎