GPT-5遭遇“博士级”推理滑铁卢:从幻象到现实的AI能力边界审视

温故智新AIGC实验室

TL;DR:

最新FormulaOne基准测试揭示,包括GPT-5在内的顶级大模型在深度算法推理上集体失利,未能达到其宣称的“博士级”能力,这迫使我们重新审视AI的真正智能边界及其在复杂现实问题中的应用潜力,从对通用人工智能的盲目乐观转向对“人工专家智能”的务实追求。

Sam Altman曾描绘了一个引人入胜的未来图景:“以后每个人的兜里都有一个博士级AI随时随地的提供建议。” 这句话为大语言模型的能力设定了一个极高的期望,也驱动着GPT-5等前沿模型的迭代与普及。然而,由Mobileye联合创始人Amnon Shashua领衔的AA-I公司近期推出的FormulaOne基准测试,却给这场“博士级AI”的乐观叙事泼了一盆冷水,揭示了当前顶级AI在深层算法推理能力上的显著缺陷。

技术极限的冷峻剖析:FormulaOne基准的深层回响

FormulaOne基准设计了一套包含220个新颖的、基于图结构动态规划的问题,这些问题被划分为三个难度递进的层级:基础、进阶和最深层。其核心在于衡量AI“超越竞赛编程的算法推理深度”1,旨在模拟现实世界中如路径规划、大规模供应链优化和网络设计等复杂问题所需的硬核算法洞察力。

测试结果令人瞩目且颇具警示性。在基础题层面,AI模型尚能应对,GPT-5能达到接近50%的正确率。然而,当难度提升至进阶题,GPT-5的正确率骤降至约4%,而其他如Grok 4、o3 Pro等模型更是表现惨淡。最令人震惊的是,在最高难度的“最深层问题”部分,所有参测模型均交出白卷,全军覆没,零分收场1

这种“概念崩溃”并非源于大模型缺乏动态规划(DP)的基础知识。事实上,当前顶尖AI在诸如CodeForces等算法竞赛中已达到甚至超越人类顶尖选手的水平1。FormulaOne的核心挑战在于其问题所需的_状态设计_艺术与科学。在“最深层”问题中,AI需要处理多个不确定的步骤,且没有简单的捷径可循。模型倾向于过早地做出不可逆的决策,而这些决策的无效性往往在多步之后才会显现,这反映了其在长远规划和复杂不确定性处理上的根本性不足1。这与FormulaOne问题源自“图上的单一二阶(Monadic Second-Order,MSO)逻辑”的特性紧密相关,该逻辑能够表达高度复杂的图论问题,在“树状”图上可以通过动态规划有效求解,但需要对问题结构有深刻的理解和高效的“状态”概括能力。

超越表象的推理挑战:AI心智的哲学审视

FormulaOne的测试结果不仅是技术层面的数据,更引发了对人工智能本质的哲学思辨。当前大语言模型(LLMs)的成功,很大程度上依赖于其强大的模式识别、语言生成和知识检索能力。在某些领域,如对医疗知识的理解和诊断辅助,GPT-5甚至被报道能超越人类医生,推理能力比专家高出24%2。然而,这与FormulaOne所测试的_深层算法推理_存在本质区别。前者更侧重于知识的关联、整合与应用,而后者则考验从基本原理出发、构建复杂逻辑结构以解决未见问题的能力

Wired的视角会拷问:我们是否混淆了“流畅的表达”与“深刻的理解”?AI在竞技编程中的表现,往往是识别出“巧妙的技巧”并围绕其快速构建解决方案。但这与现实世界中那些需要从零开始设计复杂多步骤算法、处理高不确定性的问题截然不同。AI模型在“最深层”问题上的失败,暗示了其在抽象概念的组合性推理多层级决策的鲁棒性方面,与人类专家仍存在一道难以逾越的鸿沟。这不仅是算力或数据量的简单堆叠所能解决的,可能需要_定性不同的方法论或新的AI架构_来应对1

产业版图的再定义:从“博士AI”到“人工专家智能”

FormulaOne的推出及其背后AA-I公司的愿景,正在悄然重塑我们对AI发展路径的认知。AA-I由在自动驾驶和人工视觉领域享有盛誉的Amnon Shashua创立,其核心目标是推动“人工专家智能”(AEI)的理论与应用3。AEI旨在让AI像顶级人类专家一样,结合领域知识与严密科学推理能力,突破传统瓶颈,解决复杂科学或工程难题,这与当前追求通用人工智能(AGI)的路线形成了有趣的互补。

从TechCrunch的商业敏锐度来看,FormulaOne本身就具有显著的商业价值。它紧密关联实际的大规模优化问题,意味着解决这类问题的AI将拥有巨大的市场潜力,尤其是在物流、能源、金融等对效率和精确性要求极高的行业。AA-I作为一家获得数千万美元投资并入选AWS生成式AI加速器项目的创业公司3,其所代表的“人工专家智能”方向,正成为资本市场关注的新焦点。这表明,在广阔的通用能力之外,垂直领域深度、硬核推理能力的AI解决方案可能成为下一阶段的投资热点和产业竞争高地。

未来智能的罗生门:能力边界与社会期望的张力

GPT-5在FormulaOne上的表现,无疑是对Sam Altman“博士级AI”神话的一次务实校准。它提醒我们,当前AI的“智能”并非均匀分布,而是在特定任务和特定推理类型上展现出超人能力。在高度结构化、模式可循的问题上,AI能够大放异彩;但在需要深层抽象、不确定性高且涉及复杂多步推理的领域,其能力边界依然清晰可见。

这种能力边界的揭示,对于人类社会和未来工作模式有着深远影响。我们必须避免过度神化AI的能力,尤其是在部署高风险、高复杂度的决策系统时。“博士级”AI的定义需要更为精确和细致,区分知识检索、语言生成与深层算法推理。未来AI的发展路径,可能不再是单一维度的能力无限攀升,而是走向多模态、多维度智能的协同发展,即结合不同AI的优势,或者研发全新的架构来弥补当前的推理短板。

此外,FormulaOne的提出,也为AI能力评估设立了新的标杆。它敦促研究界和产业界,不仅要关注AI在传统测试集和竞赛中的表现,更要着眼于实际科研和工程难题的解决能力。这种更具挑战性的评估框架,将驱动AI技术向更深层次的理解和更强大的推理能力演进,最终为人类文明进程带来更坚实、更可靠的智能支撑。

引用