打破参数桎梏:一种仿生学模型如何重塑AI推理的未来

温故智新AIGC实验室

一项基于人脑分层处理机制的新型循环神经网络——分层推理模型(HRM),以其惊人的参数效率(仅2700万参数)和极低的训练数据需求,在复杂推理任务上超越了DeepSeek和Claude等大型语言模型。这不仅挑战了当前AI领域对模型规模的迷信,更指向了一条通往通用人工智能(AGI)的,可能更为高效且可解释的路径。

长期以来,人工智能领域的主流叙事被“更大即更好”的理念所主导。大型语言模型(LLM)的参数量已突破万亿级别,它们在处理复杂任务时,往往依赖于思维链(CoT)等技术来模拟人类的逐步推理。然而,这种策略面临着固有挑战:任务分解的复杂性、对海量高质量数据的需求,以及伴随而来的高延迟和巨大的计算成本。这些问题不仅限制了LLM的部署和可及性,也使得我们不得不反思:AI推理的未来,是否真的只能是一场无休止的“军备竞赛”?

近日,由Sapient Intelligence的研究人员提出的一种名为**分层推理模型(Hierarchical Reasoning Model, HRM)**的全新架构,正试图提供一个截然不同的答案。该模型以其惊人的参数效率和卓越的推理能力,在多个基准测试中超越了DeepSeek和Claude等行业领先的模型,这无疑为我们理解和构建智能提供了一个全新的视角。

技术原理解析

HRM的核心创新,源于对人脑结构和运作机制的深刻洞察。它借鉴了大脑分层处理和多时间尺度协同工作的原理,构建了一个独特的循环架构。具体而言,HRM通过两个相互依赖的循环模块在单次前向传递中执行顺序推理任务,而无需对中间过程进行明确的监督。其中,一个高级模块负责缓慢、抽象的规划,而另一个低级模块则专注于处理快速、细致的计算。这种设计使得HRM能够高效地实现极高的计算深度,有效克服了传统Transformer模型在深度扩展时面临的饱和和性能瓶颈。研究人员通过实验证明,在需要大量树搜索和回溯的复杂数独任务上,增加Transformer的宽度并不能带来性能提升,而增加深度则至关重要,HRM恰好解决了这一根本限制。1

HRM的模型结构由四个可学习组件构成:输入网络、低级循环模块、高级循环模块和输出网络。这种模块化的设计,结合了大脑皮层区域多级层次结构以及神经活动具有不同内在时间节律的特性。高级脑区(如前额叶)在更长的时间尺度上整合信息并形成抽象表示,指导低级脑区(如感觉皮层)的快速计算过程,这与HRM中高级模块指导低级模块的协作模式如出一辙。此外,大脑中普遍存在的密集循环神经网络连接也为HRM的设计提供了灵感,这种反馈回路通过迭代优化提升了表示精确度和上下文适应性,并且能够有效规避传统反向传播时间算法(BPTT)中存在的深层信用分配难题。

为了进一步优化,HRM引入了多项关键技术。首先是近似梯度计算,它通过使用每个模块最后状态的梯度,并将其他状态视为常数,实现了 O(1) 的内存消耗,避免了BPTT随时间步长线性增长的内存问题。其次,深度监督机制被融入HRM,允许模型在训练过程中从多次前向传递的中间段落中获取反馈。最引人注目的是**自适应计算时间(Adaptive Computation Time, ACT)**策略,它受大脑在自动化思维(System 1)与审慎推理(System 2)之间动态切换的启发,使HRM能够根据任务复杂性自适应地调整计算资源,从而显著节省计算成本,同时最大程度地降低对性能的影响。1

性能突破与潜在影响

HRM的实验结果令人瞩目。该模型仅包含2700万个参数,并且仅使用1000个训练样本,便在复杂的推理任务上取得了卓越的性能。在抽象与推理语料库(ARC-AGI)、复杂数独谜题(Sudoku-Extreme)和大型迷宫最优路径查找(Maze-Hard)等挑战性任务上,HRM取得了近乎完美的性能,而无需预训练或思维链(CoT)数据。这与那些拥有数百亿甚至万亿参数,并严重依赖CoT技术的现有大语言模型形成了鲜明对比。2 在ARC基准测试中,HRM的表现甚至超越了上下文窗口明显更长的大型模型,而ARC是衡量通用人工智能能力的关键基准。

这项突破的意义远不止于账面上的数字。它引出了一个耐人寻味的问题:HRM神经网络究竟实现了哪些底层推理算法?研究人员通过可视化其推理过程,揭示了模型惊人的灵活性。在迷宫任务中,HRM似乎能同时探索多条潜在路径,随后排除阻塞或低效路径,并进行多次优化迭代。在数独任务中,其策略类似于深度优先搜索方法,模型会探索潜在解决方案,并在遇到死胡同时回溯。而对于ARC任务,HRM则采用了渐进式调整和迭代改进的方法,更类似于爬山优化。1 这种对不同任务自适应选择推理策略的能力,显示出其强大的通用性和可解释性潜力,远超当前LLM黑箱式的CoT推理。

从更宏观的视角来看,HRM展现出图灵完备性,这意味着在给定足够的内存和时间约束下,它具有计算通用性,能够模拟任何图灵机。结合其自适应计算能力,HRM可以在长推理过程中进行训练,解决需要密集深度优先搜索和回溯的复杂难题,从而更接近实用的图灵完备性。这一点对于未来AI Agents和自主系统的发展至关重要,因为它意味着更强的泛化能力和问题解决能力。

此外,HRM的训练范式也与当前主流方法形成对比。它从基于梯度的密集监督中获取反馈,而不是依赖于稀疏的强化学习奖励信号。近年来,强化学习在解锁CoT能力方面发挥了作用,但其不稳定性、数据效率低下以及对精心奖励设计的依赖一直是其痛点。HRM在连续空间中自然运行,避免了为每个token分配相同计算资源所导致的低效,这在生物学上也更为合理。

HRM的出现,无疑是对当前AI发展路径的一次有力挑战。它不仅证明了在推理能力上,模型规模并非唯一的决定因素,更重要的是,它指明了一条通往更高效、更节能、更可解释且更接近生物智能的AI发展道路。虽然仍需进一步研究以更全面地了解其解题策略和更广泛的适用性,但HRM已然预示着通用计算变革性进步的潜力,可能重塑我们对未来AI的预期和构建方式。它让我们看到,模仿自然智能的优雅与效率,或许才是通往真正通用人工智能的关键。

引用


  1. 只用2700万参数,这个推理模型超越了DeepSeek和Claude·36氪·编辑:泽南、陈陈(2025/6/30)·检索日期2025/6/30 ↩︎ ↩︎ ↩︎

  2. 只用2700万参数,这个推理模型超越了DeepSeek和Claude·新浪财经·(2025/6/30)·检索日期2025/6/30 ↩︎