田渊栋团队开创“连续思维链”新范式:AI如何通过“叠加态”实现并行推理

温故智新AIGC实验室

大语言模型在复杂推理任务中面临效率瓶颈,而田渊栋团队最新研究提出一种“连续思维链”范式,通过借鉴“量子叠加态”概念,使AI能够并行探索多条路径,在图可达性等任务上实现性能和效率的飞跃,为AI的通用推理能力打开新的可能性。

在人工智能领域,大语言模型(LLMs)的崛起深刻改变了我们与机器互动的方式。然而,即便这些模型在文本生成和知识问答方面展现出惊人能力,它们在处理需要多步骤、复杂推理的任务时,依然面临着固有的效率与准确性挑战。传统的“思维链”(Chain of Thought, CoT)推理方法,通过将复杂问题分解为一系列离散的中间步骤,确实提升了模型的逻辑能力,但在面对如图可达性这类需要大量搜索和判断的问题时,其效率低下,犹如在迷宫中一步一摸索,不仅耗时,还容易陷入局部最优解。

近日,由Meta GenAI(前FAIR)资深研究员田渊栋领衔,联合加州大学伯克利分校(UC Berkeley)和加州大学圣迭戈分校(UCSD)的科学家们,推出了一项突破性研究。他们提出了一种名为“连续思维链”(Continuous Chain of Thought, Continuous CoT)的新范式,并通过引入“叠加态”的概念,使得大模型能够进行_并行搜索_,显著提升了其在复杂图任务中的推理性能。这项工作不仅为此前关于连续隐向量能提升模型表现的经验性发现提供了坚实的理论支撑,更可能预示着LLMs推理范式的一次重大革新1

连续思维链:AI的“量子叠加”式并行搜索

传统离散思维链(Discrete CoT)的推理过程,类似于深度优先搜索(DFS):模型每次只能选择并沿着一条单一路径前进,导致在处理具有_n_个顶点的有向图可达性问题时,需要O(n^2)步解码,效率低下且易受局部解限制。田渊栋团队提出的连续思维链则截然不同,它通过将思维过程编码为_连续隐向量_而非离散的token,从而实现了对多个潜在路径的_同时编码_。这种“叠加态”的并行搜索机制,如同广度优先搜索(BFS),允许模型在每一步同时考虑所有可能的下一步,从而大幅提升了搜索效率。

研究团队设计的COCONUT(连续思维链)模型,核心是一个创新的两层Transformer架构,结合了一个巧妙的“注意力选择器”机制,来维护和演进这种“叠加态”:

  • 注意力选择器: 犹如一个智能导航仪,引导模型将注意力精确聚焦于关键信息。当遇到代表一条边结束的特定token时,它会促使模型关注该边的源节点和目标节点,将相关信息“复制”到边token的位置,确保信息有效提取和关联。
  • 第一层Transformer:整理边的信息 这一层专注于结构化地处理图中的边信息。模型通过多个注意力头,将每条边的源节点和目标节点的信息整合到该边对应的token中,如同为每条边打上清晰的“起点-终点”标签,为后续的并行探索奠定基础。初始的根节点嵌入向量则作为探索的起始“思维向量”被保留。
  • 第二层Transformer:并行探索所有可能路径 这是实现“叠加态”并行搜索的核心。当前思维向量中包含了所有c步内可达的节点信息,形成了一个“叠加态”的节点集合Vc。第二层Transformer会“扫描”所有边,识别出哪些边的源节点包含在Vc中。符合条件的边的目标节点会被“添加”到当前的叠加态中,从而生成一个新的、包含了c+1步内所有可达节点的集合Vc+1。这一过程使得模型能够以并行的方式,而非顺序方式,逐步扩展其可达节点的“视野”。
  • MLP层:过滤与平衡 为确保“叠加态”的纯净性和有效性,模型引入了一个多层感知机(MLP)。它扮演着“筛子”的角色,能够过滤掉那些权重极小、几乎不可达的“噪声”节点,同时平衡剩余有价值节点在叠加态中的权重,防止某些信息“压倒”其他信息,从而保持并行探索的公平性和效率。

突破性成果:图可达性验证与未来展望

实验结果有力地支持了连续思维链的优越性。在ProsQA数据集的子集上进行的测试显示,仅需两层Transformer的COCONUT模型,在解决需要3-4步推理的图可达性问题时,准确率接近100%。与之形成鲜明对比的是,一个拥有12层的离散CoT模型,其准确率仅为83%;而没有CoT的基线模型,则只能解决约75%的任务1

更值得注意的是,团队在理论上证明,对于具有_n_个顶点且直径为_D_的图,一个包含_D_步连续CoTs的两层Transformer就可以解决有向图可达性问题。相比之下,采用离散CoTs的恒定深度Transformer,其最佳已知结果却需要高达O(n^2)个解码步骤。这种指数级的效率提升,无疑是AI推理能力领域的一次重大飞跃。通过对注意力模式和连续思维表示的深入分析,研究团队也证实了模型中存在预期的“叠加态”搜索行为,为这一理论假设提供了直接的实验证据。

这项研究的意义远不止于图可达性问题本身。它揭示了大模型通过连续隐向量进行推理的巨大潜力,为解决更广泛的、需要复杂搜索和多路径探索的AI任务提供了新的思路。这可能包括但不限于更高效的规划、更准确的逻辑推理、甚至是对现实世界复杂系统建模和预测的能力。这种“并行搜索”的能力,使得AI在面对高维度、复杂决策空间时,能够更迅速、更全面地找到最优解,从而加速AI从概念走向实用,尤其是在代理AI(Agentic AI)和多模态推理等前沿领域,或将迎来爆发前夜23

AI与人文的交织:田渊栋的深度思考

这项开创性研究的背后,是AI领域一位颇具传奇色彩的科学家——田渊栋。他不仅是Meta GenAI的资深研究员,更是一位科幻小说家。2020年至2021年,在AI领域热度渐起的时期,他完成了首部长篇科幻小说**《破晓之钟》**,并于2024年6月正式出版45

《破晓之钟》讲述了几位年轻科学家面对外太空挑战和人类危机的故事。与宏大叙事《三体》不同,该书的技术背景更贴近当下,甚至预言了我们在大语言模型热潮中所关注的核心问题。该书的核心观点是:“AI只是在模仿数据,却让人误以为它有智慧。”这一深刻洞察,在ChatGPT爆火之前便已形成,精准触及了大语言模型本质的哲学思辨。

田渊栋的这一双重身份——前沿AI技术的开拓者和对AI本质进行深刻反思的科幻作家——本身就引人深思。他不仅在技术层面推动着AI能力的边界,更在人文层面对AI可能带来的社会与伦理影响进行着预见与探讨。他透露,其第二部小说正在构思中,将延续《破晓之钟》的世界观,时间线向后推移,可能涉及“群体意识”和“星际殖民”等宏大议题。他希望“写出更大的宇宙,但核心依然是人类的选择与挣扎。”5 这种将技术深度与人文关怀相结合的视角,正是我们审视AI发展时不可或缺的维度。

通过“连续思维链”与“叠加态”的并行搜索,田渊栋团队无疑为大语言模型的推理能力注入了新的活力。这不仅是技术层面的突破,更引发我们对AI智能本质的深层思考:当AI能够以我们所理解的“并行”方式进行复杂推导时,它与人类思维的距离,又将如何被重新定义?

References


  1. 田渊栋,等(2025/05/16)。Scalable Reasoning with Superposition: Continuous Chain-of-Thought for Transformers。arXiv。检索日期2025/06/19。 ↩︎ ↩︎

  2. 量子位(2025/06/19)。连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索。量子位。检索日期2025/06/19。 ↩︎

  3. 网易新闻(2025/06/19)。Agentic AI迎来爆发前夜如何加速从概念迈向实用?。网易。检索日期2025/06/19。 ↩︎

  4. 量子位(2025/06/19)。田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索。网易。检索日期2025/06/19。 ↩︎

  5. 闻乐(2025/06/19)。田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索。量子位(微信公众号)。检索日期2025/06/19。 ↩︎ ↩︎