告别“薛定谔的答案”:百亿独角兽重塑LLM推理确定性,开启AI研发新纪元

温故智新AIGC实验室

TL;DR:

Thinking Machines Lab通过揭示LLM推理非确定性的真正根源在于“批次大小变化”而非传统认为的浮点数非结合性,并创新性地提出了批处理不变性内核优化方案。这一突破不仅解决了大模型输出一致性这一长期痛点,更将赋能“真正同策略强化学习”,为AI的科学可复现性、商业可靠性与伦理治理奠定坚实基础。

在人工智能领域,尤其是大语言模型(LLM)的快速迭代中,一个看似微小却深远影响着其可靠性和可信度的问题,长期以来如影随形——非确定性推理。即使将温度参数(temperature)降至零,期待模型给出唯一、确定的答案,LLM API在实际中仍常常提供不同的结果。这不仅困扰着开发者,也制约了AI在关键应用场景中的大规模落地。如今,这家成立仅七个月便估值百亿美元的独角兽企业Thinking Machines Lab,由前OpenAI副总裁Lilian Weng联合创立,以一篇万字长文,首次公开其核心研究成果,直指并攻克了这一顽疾1

技术原理与创新点解析

长期以来,业界普遍将LLM推理的非确定性归因于“并发+浮点数”假说,即GPU上浮点运算的非结合性与并行执行的组合,导致不同执行顺序下的结果差异2。然而,Thinking Machines Lab在其首篇博客文章“Defeating Nondeterminism in LLM Inference”中,挑战了这一流行观点。

他们的核心发现是:LLM前向传播并不需要原子加法;其非确定性真正来源是“批次大小变化”而非“原子竞争”3。这意味着,在大模型推理服务中,由于服务器负载和请求批次大小的动态变化,导致计算图中的某些内核(kernel)在不同批次下采取了不同的归约路径或计算策略,进而产生微小的浮点数差异,并随着层层传播被放大,最终表现为模型输出的非确定性。

为了克服这一难题,Thinking Machines提出了“批处理不变性”(Batch Invariance)的解决方案,即确保计算内核无论批处理大小如何变化,都执行相同的数值计算序列。他们重点关注了Transformer架构中涉及归约操作的三个关键部分:

  1. 批处理不变的RMSNorm(数据并行RMSNorm):通过为每个核心分配一个批处理元素,确保每个归约都在单个核心内完成,从而避免核心间的通信和数值差异。3
  2. 批处理不变的矩阵乘法(数据并行Matmul):采用将输出张量分割成二维分块并分配给不同核心的策略,确保每个核心在内部完成点积计算。虽然为实现批处理不变性可能导致约20%的性能损失(相比cuBLAS),但这对于大模型推理而言通常在可接受范围内。3
  3. 批处理不变的注意力机制:这是最复杂的环节,因为它涉及两个矩阵乘法并在特征维度和序列维度上进行归约。传统的带KV缓存的FlashAttention会因KV块数不同而破坏批处理不变性。Thinking Machines的解决方案是在kernel启动前统一更新KV-cache页表,保证任意时刻KV布局一致。同时,对于分裂归约策略,他们建议不再固定分割的数量,而是固定每个分割的大小,以确保无论处理多少个查询token,都能执行相同的归约顺序,实现批处理不变性。3

通过在vLLM的FlexAttention后端以及torch.Library上进行实现与实验,Thinking Machines Lab成功证明了启用批处理不变内核后,LLM推理可以实现逐位(bitwise)一致的完全确定性。在Qwen/Qwen3-235B-A22B-Instruct-2507模型上进行的1000次采样实验显示,传统方法下产生了80个不同补全,而启用批处理不变内核后,所有1000个补全完全相同。3

产业生态影响评估

Thinking Machines Lab的这一突破,不仅仅是技术上的精进,更是对整个AI产业生态的深远影响。

  • 商业敏锐度:重塑AI产品可靠性基石。 对于那些将LLM集成到关键业务流程中的企业而言,结果的非确定性是一个巨大的障碍。想象一下,一个金融分析模型对同一组数据给出不同建议,或一个法律助手对相同查询生成不同法律条款,其风险和信任成本是不可估量的。批处理不变性为企业提供了可预测、可调试、可审计的AI产品,显著提升了商业应用的可靠性和合规性,从而降低了企业的采纳门槛和运营风险。这为LLM的“工业化”部署铺平了道路。
  • 产业生态洞察:推动AI基础设施的进化。 Thinking Machines选择在vLLM这样的开源推理框架上进行演示,表明了其对现有生态的赋能。未来的LLM推理服务将不再仅仅追求速度和成本效率,确定性将成为其核心竞争力之一。这可能催生一批专注于提供高确定性、高复现性AI推理服务的中间件和平台,进一步丰富和优化AI基础设施层。
  • 投资逻辑分析:基础研究的长期价值回归。 在资本追逐应用层快速变现的当下,Thinking Machines作为一家估值百亿美元的独角兽,却将目光聚焦于如此底层的、近乎“枯燥”的数值计算问题,其战略眼光值得深思。这反映出头部资本和顶尖人才对于AI技术深层、根本性问题的长期投资逻辑。解决这些基础性难题,将为更高层级的AI创新(如更强大的Agent、更安全的自动驾驶)解锁新的可能性,其潜在回报远超短期商业化收益。

未来发展路径预测

Thinking Machines Lab的成果,预示着AI领域即将迎来一场更深层次的变革,尤其是在研发范式和社会影响层面。

  • 真正的同策略强化学习(True On-Policy RL)成为可能。 这或许是此项技术最激动人心的前瞻性洞察之一。研究指出,由于训练和推理之间存在的数值差异,所谓的“同策略强化学习”(on-policy RL,如RLHF)在实践中无形地变成了“异策略强化学习”(off-policy RL)。这意味着训练策略与采样策略存在偏差,导致训练过程的不稳定甚至崩溃。而确定性推理能够让采样器与训练器实现逐位一致的数值同步,使得KL散度始终为0,从而实现“真正的同策略RL”。这无疑将极大地提升RLHF等对齐技术的效率和稳定性,加速AI模型在复杂任务上的泛化和性能提升,直接影响未来AGI的研发路径3
  • 科学可复现性的基石。 可复现性是科学进步的基石。在AI for Science日益重要的今天,如果AI模型的实验结果无法复现,其科学价值将大打折扣。Thinking Machines的解决方案,让AI的数值计算过程变得透明和可控,为AI在药物发现、材料科学、气候建模等领域的应用提供了严谨的科学保障。这将推动AI从“启发式工具”向“可靠的科学发现伙伴”转变。
  • AI伦理与治理的新维度。 随着AI系统在社会中的影响力日益增强,对其行为的可解释性、公平性和安全性要求也越来越高。确定性推理使得每次输入都能产生相同的输出,这为AI系统的调试、测试、审计提供了前所未有的确定性。它将有助于识别和修复模型中的偏见,增强系统的透明度,并为未来的AI法规和治理框架提供坚实的技术支撑。当系统行为可预测时,我们才能更好地理解、控制和信任它。
  • 哲学思辨:对“万事怕认真”的呼唤。 正如Thinking Machines所言,现代软件系统层层抽象,机器学习中的非确定性与微小数值差异,往往让人想“睁一只眼闭一只眼”,认为“反正系统本就概率化,多一点不确定也无妨”。这种“算了吧”的心态阻碍了深度洞察和系统性解决问题的动力。Thinking Machines的实践证明,只要“认真”深挖,这些根源非确定性是可以被定位和修复的。这不仅是对技术人员的激励,更是对整个AI社区的一种哲学召唤:重新审视并坚守科学的严谨性与确定性,即使面对看似混沌的智能系统。3

Thinking Machines Lab的“Connection Machine”旗舰产品及其“联结主义”研究专栏,正呼应着早期AI时代对神经网络与生物大脑相似性的探索1。这似乎暗示着,在AI发展的高速公路上,我们需要时不时停下来,重新审视那些被忽视的基础性问题。通过攻克LLM推理的非确定性难题,Thinking Machines不仅解决了当前AI应用的痛点,更以其对确定性和可复现性的追求,为AI研发的未来描绘了一幅更为清晰、严谨且充满潜力的宏伟蓝图。

引用


  1. 成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理 ... · 新智元 · 新智元(2025/9/11)·检索日期2025/9/11 ↩︎ ↩︎

  2. Thinking Machines Lab首次发长文,揭开LLM推理不确定性 ... · 华尔街见闻 · (2025/9/11)·检索日期2025/9/11 ↩︎

  3. Defeating Nondeterminism in LLM Inference · Thinking Machines Blog · Horace He(2025/9/11)·检索日期2025/9/11 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎