苹果最新研究质疑AI推理的本质,认为其在复杂问题上表现出结构性瓶颈,而OpenAI前高管则坚信通用人工智能(AGI)已近在咫尺。这场激烈争论的核心在于,当前先进的AI模型究竟是在“思考”还是在进行“高级模式匹配”,这不仅关乎技术边界,更触及我们如何定义和评估智能的深层问题。
一场关于人工智能核心能力——“推理”的激烈辩论,正在硅谷和学术界掀起波澜。一边是技术巨头苹果公司,以一篇名为《思考的错觉》(The Illusion of Thinking)的论文,尖锐地挑战了当前AI推理能力的根本假设;另一边,则有OpenAI前研究主管Bob McGrew等乐观派,坚信通用人工智能(AGI)所需的关键突破已经实现,甚至预言2025年将是AI推理的“元年”1。这场争论的核心,远不止于技术性能的高低,它深刻地拷问着我们对AI智能本质的理解,以及AGI的真正路径。
推理模型的承诺与现实困境
近年来,大型语言模型(LLMs)一路狂飙突进,而新一代的“大型推理模型”(Large Reasoning Models, LRMs)更是乘势而上,如OpenAI的o1、DeepSeek-R1以及Claude 3.7 Sonnet Thinking。这些模型不再仅仅依靠堆砌规模,而是号称加入了更复杂的“思维机制”,旨在通过模拟人类的思考过程来突破传统LLM的性能天花板。它们被赋予了三大“超能力”:思维链(Chain of Thought, CoT),能够像人类解数学题一样一步步推导;自我反省,能够检查并修正自己的答案;以及智能分配算力,即在遇到难题时自动“多想想”1。
事实证明,这些改进在特定领域确实带来了显著进步。OpenAI的o1模型刷新了数学基准纪录,并在代码生成、科研辅助等结构化任务上表现出色。这些振奋人心的进展,一度让业界相信“新范式”已然降临——未来AI的进步,或许不再单纯依赖海量数据和算力堆叠,而是在模型“思考”过程中投入更多资源,便能解锁全新能力1。
然而,一系列严谨的实证研究却为这股乐观情绪泼了冷水。来自不同机构的独立测试,揭示了这些推理模型在严格条件下的真实表现,也暴露了其能力上的潜在瓶颈。
首先是苹果公司极具争议的论文《思考的错觉》2。该研究通过对汉诺塔、跳棋过关、渡河难题等游戏化谜题进行可控实验,旨在排除AI“背题库”作弊的可能性。他们的发现令人警醒:
- 低复杂度任务:传统语言模型表现更佳且资源消耗更低,表明推理机制并非总是增益。
- 中等复杂度任务:推理模型优势明显,证明其确实具备了超越模板匹配的真实能力。
- 高复杂度任务:所有模型性能全面崩溃,且令人费解的是,模型投入的“脑力”(token消耗)不增反降,仿佛“躺平”放弃。这暗示了深层的结构性瓶颈,而非简单的算力不足1。
这一现象与长期的AI批评者、认知科学家Gary Marcus的观点不谋而合。Marcus早在1998年就指出,神经网络擅长在“训练过的范围内”表现,但一旦遇到全新的、训练数据中未曾见过的复杂问题,性能就会暴跌1。苹果的实验似乎为这一理论提供了新的实证支持,揭示了记忆与推理之间的本质区别:背下答案不代表真正理解问题。
其次,亚利桑那州立大学的Subbarao Kambhampati教授团队对推理模型的“规划能力”进行了深入研究3。他们使用PlanBench工具测试了OpenAI的o1-preview模型,结果显示,在简单的Blocksworld任务中,模型准确率高达97.8%,相比早期模型是质的飞跃。然而,一个令人意外的现象是,即使明确告知模型算法步骤,其表现也并不会更好。这表明,虽然这些模型在“推理”,但其推理方式可能与人类基于逻辑的推理存在根本差异1。
最后是抽象与推理语料库(Abstract and Reasoning Corpus, ARC)基准测试4。由Keras之父François Chollet发起的ARC测试,旨在突出“人类易行”而“AI难懂”的任务,被视为AI推理能力的试金石。尽管在ARC Prize的推动下,AI模型在2024年的ARC测试中将完成率从2020年的20%提高到了55.5%,但一个值得警惕的信号是,ARC测试对“模型越大就越强”的假设并不买账1。这意味着,仅仅“无脑”堆叠算力和参数,已难以进一步提高成绩,未来的突破需要根本性的思路转变,甚至重构模型结构。
评估挑战与未来路径
尽管上述研究暴露了当前推理模型的一些深层问题,但这并不意味着它们的努力“徒劳无功”。正如文章指出的,推理模型在规划类任务、数学和逻辑推理等领域确实取得了实质性突破。它们的能力有边界,但这些边界的识别并非易事。
Open Philanthropy高级项目专员Alex Lawsen对此提出了另一种视角。在他名为《思考的错觉的错觉》(The Illusion of the Illusion of Thinking)的论文中,Lawsen质疑了苹果论文的研究方法,认为许多被判定为“推理失败”的案例,并非模型能力不足,而是评估方式出了问题5。例如:
- 模型能判断出题目在数学上根本无法求解,却被判为“不会做”。
- 模型因token限制被迫中断,却被认为“能力不行”。
- 模型生成的是算法,而非一步步列出所有动作,结果也被判失败。
Lawsen认为,这些误判可能掩盖了模型的真实能力。因此,当前的关键问题并非AI推理能否实现,而是我们能否构建出真正准确且科学的评估体系,以区分模型是真正遇到了瓶颈,还是仅仅被不恰当的评估方法所束缚1。
那么,走出当前的瓶颈,还有哪些可能的新方向?研究者们已经开始探索“另辟蹊径”:
- 混合架构(Hybrid Architectures):将神经网络的灵活性与传统符号算法的可靠性相结合。例如,Kambhampati提出的LLM-Modulo框架,允许大语言模型充当思想生成器,而各种专门的外部评论员则对候选计划进行评审1。这种组合有望让模型在“学得会”的同时也“讲规则”,更适合需要严谨推理的任务。
- 专用推理系统(Specialized Reasoning Systems):与其追求“啥都能做”的万能AI,不如聚焦具体领域,如数学、物理、法律等,开发针对性更强、稳定性更高的专用模型。在这些专业领域,专用模型可能比“通用大模型”更可靠、更实用1。
这场关于AI推理能力边界的争论,是人工智能发展进入深水区后一次必要的反思。它提醒我们,在追逐AGI的宏大目标时,需要保持清醒的认知和严谨的科学态度。AI的进步并非单向的线性增长,它充满了复杂性与非直觉性。未来的突破,可能不再是简单的参数堆叠,而是更深刻的架构创新、更精密的评估范式,以及对智能本质更为谦逊的理解。毕竟,如果连“思考”的定义和评估都模糊不清,那么“通用智能”的实现,或许就更像一场关于错觉的迷思了。
引用
-
苹果一口咬死AI不会思考,OpenAI前高管直接开怼:AGI已来,别再酸了·36氪·新智元·KingHZ(2025/6/30)·检索日期2025/6/30 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
The Illusion of Thinking·Apple Machine Learning Research·Apple(2025/6/30)·检索日期2025/6/30 ↩︎
-
LLM Planning: The Curious Case of Instruction Tuning·arXiv·Subbarao Kambhampati et al.(2024/9/19)·检索日期2025/6/30 ↩︎
-
Abstract and Reasoning Corpus (ARC)·GitHub·François Chollet(未知)·检索日期2025/6/30 (注:ARC为开源项目,无具体发布日期,引用创建者及目的) ↩︎
-
The Illusion of the Illusion of Thinking·arXiv·Alex Lawsen(2025/6/9)·检索日期2025/6/30 ↩︎