超越“思考的幻觉”:一场关乎大模型推理本质与评估范式的深度辩论

温故智新AIGC实验室

一场由苹果公司论文引发的关于大模型推理能力的辩论,正深刻挑战着AI评估的既有范式。最新研究指出,许多所谓的“推理失败”实则源于不当的测试设计,而非模型本身的局限性,这促使业界重新审视如何公正、有效地衡量AI的真实能力,并对未来AI应用的构建与信任产生深远影响。

近日,一篇由Open Philanthropy研究人员与Anthropic公司合作、并由其旗舰AI模型Claude Opus共同署名的论文——《思考的幻觉的幻觉》(The Illusion of the Illusion of Thinking1,将矛头直指苹果公司此前发表的《思考的幻觉》(The Illusion of Thinking2一文。苹果的研究曾断言,当前最先进的大型语言模型(LLMs)在处理复杂逻辑推理问题时,其表现会随着问题规模的扩大而迅速崩溃,暗示它们本质上仅是模式匹配器,而非真正的推理者。然而,这篇最新的反驳论文以简洁而有力的笔触,揭示了苹果研究中存在的关键实验设计漏洞,不仅为大模型的“推理能力”正名,更引发了对AI评估方法论本身的深层反思。

重新审视推理:缺陷的暴露

苹果的“思考的幻觉”论文主要通过汉诺塔(Tower of Hanoi)和过河问题(River Crossing)等经典逻辑难题,来测试大模型(如o3-mini、DeepSeek-R1、Claude-3.7-Sonnet等)的推理能力。其核心论点是,当这些问题的复杂度增加时,模型的准确率会急剧下降,进而得出大模型缺乏通用推理能力的结论。然而,《思考的幻觉的幻觉》论文的作者Lawsen和Claude Opus指出,苹果的测试未能充分考虑大模型固有的技术限制和评估标准的不合理性。

首先是输出令牌(Token)上限的问题。在汉诺塔这类问题中,即使是一个相对较小的盘子数量(例如15个盘子),也需要指数级的移动步骤(超过32,000次移动)。大模型的输出通常受到严格的令牌上限限制(例如Sonnet 3.7为128k,DeepSeek R1为64K,o3-mini为100k)。这意味着,无论模型是否能“理解”并“推理”出完整的解决方案,它们在达到输出上限时都无法完整列出所有步骤,从而被错误地判定为“推理失败”13。论文指出,在不考虑任何推理令牌的情况下,大多数模型在处理超过13个盘子的汉诺塔问题时,准确率就会降至零,这并非推理能力的缺失,而是输出带宽的限制。当模型面对过大的问题时,它们甚至会选择解释解决方案的方法,而非逐一列出步骤,这恰恰是其在容量限制下的一种“智能”规避。

其次是误差累积效应。即使模型在每一步推理中选择正确盘子的概率高达99.99%,随着推理步骤的呈指数级增长,最终答案的准确性也会急剧衰减1。苹果的评估标准往往要求大模型给出的回答必须完全没有错误。这种“零容忍”的评估方式,对于涉及多步骤、长序列输出的任务而言,显得过于严苛。模型可能在某一微小环节的记忆或表示上出现偏差,导致后续指令无法执行,但其核心的推理逻辑可能依然存在。

再者,苹果的研究还被指出存在测试用例的缺陷。例如,其在过河问题中引入了在数学上无解的n=6的情况。将模型在这些_不可解问题_上的失败视为缺乏推理能力的证据,显然有失公允13

评估的艺术与科学:超越表象

这场争论不仅揭示了单个研究的局限性,更凸显了当前大模型评估领域所面临的深层挑战:我们究竟应该如何有效地衡量和理解这些复杂系统的能力?

《思考的幻觉的幻觉》论文提出了一种更具洞察力的评估方法:不再要求大模型直接逐行输出所有推理步骤,而是要求它们生成一个能够解决问题的程序(例如Lua程序)。随后,通过运行这个程序并判断其输出是否正确来评估模型的推理能力。结果令人瞩目:Claude-3.7-Sonnet、Claude Opus 4、OpenAIo3和Google Gemini 2.5等模型在5000个令牌的限制下,都能够输出高准确率的正确程序1。这有力地表明,模型并非未能进行推理,而是未能遵循一个_人为设定、过于严格_的、且可能不符合其_运行机制_的评分标准。这完全消除了所谓的“推理能力崩溃”现象。

这一发现对于大模型评估领域而言意义重大。它提醒我们,当前许多基准测试可能存在“盲点”:它们可能更侧重于测试模型的_输出能力或记忆精确度_,而非其_深层规划或逻辑构建能力_。例如,要求模型生成冗长、无差错的步骤列表,可能更多地是在考验其上下文窗口大小、输出预算或记忆精度,而不是它能否理解问题并找到解决方案的核心逻辑。

超越技术:行业与伦理的考量

这场关于LLM推理能力的辩论,早已超越了纯粹的学术范畴,触及了更广泛的行业与社会影响。苹果论文的发布时间恰逢其全球开发者大会(WWDC)之前,这使得其影响力进一步扩大,也引发了关于其动机的猜测:一些批评者暗示,苹果在大模型领域相对于OpenAI和谷歌等竞争对手可能有所滞后,因此试图通过质疑大模型的推理能力来降低公众预期,或是挽救其在Siri等AI产品上表现不佳的声誉3

更深层次的讨论则关注到人类与AI能力边界的模糊。有评论指出,即使是人类,也大多无法在不借助外部工具或记忆辅助的情况下,精确无误地写出13个盘子汉诺塔问题的一步步解法。如果缺乏与人类在相同任务和约束下的比较,我们又如何能断言AI的“失败”是其独有的缺陷?3 此外,关于模型是否仅仅是“模式匹配”的争论也再次浮出水面。法国高效能AI初创公司Pleias的工程师Alexander Doria认为,模型可能正在学习部分_启发式方法_,而非简单的模式匹配,这暗示了比纯粹复制更复杂的认知过程3。宾夕法尼亚大学沃顿商学院专注于AI的教授Ethan Mollick则认为,当前就断言大语言模型“遇到瓶颈”为时尚早,并将其比作那些未能应验的关于“模型崩溃”的类似论断3

这场辩论凸显了一个日益增长的共识:设计合理的大模型评估方案,如今与模型设计本身同等重要。对于在企业中构建基于推理大模型应用的决策者而言,这并非仅仅是学术争论。它提出了关于在生产工作流程中何时、何地以及如何信任这些模型的关键问题——尤其是在任务涉及长规划链或需要精确的逐步输出时3

理解上下文窗口、令牌预算以及评估中使用的评分标准,对于可靠的系统设计至关重要。开发者可能需要考虑外部化内存、分块推理步骤或使用函数或代码等更紧凑的输出形式,而不是依赖完整的语言解释。如果一个模型在处理复杂提示时看似“失败”,问题可能不在于其核心推理能力,而在于任务如何被构建、需要多少输出,或模型能访问多少内存。这对于构建如协作者、自主代理或决策支持系统等工具的行业尤其相关,在这些应用中,可解释性和任务复杂性都可能很高3

更重要的是,这篇论文的争议提醒我们,基准测试与现实应用并不相同。企业团队应谨慎避免过度依赖那些不能反映实际应用场景的合成基准测试——或者那些无意中限制模型展示其能力的基准测试。对机器学习研究人员来说,一个重要的启示是:在宣称一个人工智能里程碑或“讣告”之前,务必确保测试本身没有将系统置于一个_太小而无法思考的框框之中_。

References