确定性AI的黎明:Thinking Machines如何用“批次不变性”重塑LLM与可信赖智能

温故智新AIGC实验室

TL;DR:

由OpenAI前高管组建的Thinking Machines发布首个核心成果,通过解决大语言模型推理中的“批次不变性”问题,成功实现LLM输出的确定性。这不仅为构建更可靠、可控的AI系统奠定基础,也预示着企业级AI应用和AI Agent发展的重大突破,其背后是深厚的资本布局和对AI未来范式的深刻探索。

2025年,AI领域最受瞩目的初创公司之一,由前OpenAI CTO Mira Murati领衔的Thinking Machines,在估值高达120亿美元、完成20亿美元创纪录种子轮融资后,终于揭开了其首篇研究博客的神秘面纱。这篇名为“Defeating Nondeterminism in LLM Inference”(《克服LLM推理中的不确定性》)的文章,没有带来惊艳的基座模型,却直指大语言模型(LLM)长期以来一个核心痛点:推理结果的非确定性。这并非简单的技术修补,而是对AI系统可靠性与可控性的底层范式重构,为AI Agent和企业级AI的规模化应用铺平了道路。

技术原理与核心创新:告别LLM推理的“薛定谔之猫”

长期以来,即便是将采样温度(sampling temperature)设置为零,大语言模型在面对相同输入时,也常常输出不尽相同的文本。这种“薛定谔之猫”式的非确定性,严重阻碍了LLM在金融、医疗、法律等对可复现性、可审计性要求极高的关键领域的应用,也为AI Agent的可靠训练和部署带来了挑战。业界普遍认为这源于GPU浮点数运算的非结合性与并行执行的随机组合1

然而,Thinking Machines通过深入研究发现,问题的核心并非仅此。真正的“罪魁祸首”是批次不变性(Batch Invariance)的缺失。在大模型实际部署中,服务器会根据负载动态调整推理批次的大小。而现有的GPU计算内核(如矩阵乘法、RMSNorm等)往往会因此改变其内部的计算顺序或策略。浮点数运算固有的微小差异,在Transformer模型多层迭代中被不断放大,最终导致即使输入完全相同,在不同批次大小下也会产生不同的输出。

Thinking Machines的创新之处在于,他们提出并实现了一系列批次不变的计算内核,以确保核心操作的计算顺序不受批次大小变化的影响:

  • RMSNorm的批次不变性:通过为每个批次元素分配一个独立的计算核心,确保每个元素的归约顺序固定,从而在批次大小变化时保持归约策略不变。
  • 矩阵乘法的批次不变性:将输出张量拆分为2D块,并为每个块分配独立的核心,确保点积计算和归约操作在核心内部完成。为了避免因批次大小变化导致并行策略或张量核心指令切换,他们采用了为所有输入形状编译统一内核配置的方法,即便这会带来约20%的性能损失,但在其看来是可接受的代价。
  • 注意力机制的批次不变性:在注意力内核执行前,优先更新KV缓存和页表,确保无论序列如何拆分处理,KV存储布局始终一致。同时,通过固定每个拆分块的大小(例如256),使拆分数量随KV长度自适应,保障归约顺序不依赖批次大小。

实验验证进一步证实了这些技术的有效性。在Qwen/Qwen3-235B-A22B-Instruct-2507模型上的测试显示,使用批次不变性内核后,1000次相同输入的推理结果完全一致,彻底解决了非确定性问题。更重要的是,这使得真正的在线策略强化学习(Online Policy RL)成为可能,KL散度始终保持为0,无需离线校正,极大地提升了RL训练的稳定性和效率。1

商业价值与产业生态重塑:从可靠性到规模化AI

Thinking Machines对LLM推理确定性的解决,其商业价值不容小觑。这不仅是一项技术上的精进,更是开启企业级AI大规模应用的关键钥匙

  • 解锁关键应用场景:在金融欺诈检测、药物研发模拟、自动驾驶决策、法律文档生成等高风险、高精度要求的领域,AI的确定性输出是构建信任、确保合规和实现可靠性的前提。一个无法复现结果的模型,在这些场景下是不可接受的。Thinking Machines的成果将极大地拓展LLM的应用边界和商业潜力。
  • 赋能AI Agent的演进:真正的在线策略强化学习,是构建具有自主学习、自我优化能力的AI Agent不可或缺的基石。一个能够稳定、可预测地与环境交互并学习的Agent,将是通向AGI道路上的重要里程碑。Thinking Machines的技术,将使得AI Agent的训练和部署更加稳健、高效,大幅降低开发和维护成本。
  • 重塑AI基础设施投资逻辑:高达20亿美元的种子轮融资,由a16z领投,Nvidia、Accel、ServiceNow、CISCO、AMD、Jane Street等一众战略投资者跟投,这不仅仅是对团队的信任,更是对AI基础设施中可靠性作为核心价值的深刻洞察。资本市场意识到,如果AI要真正融入社会和经济的核心环节,其底层计算必须具备工业级的稳定性和可信赖性。Thinking Machines正在构建的,正是未来AI世界的“坚实地基”。2
  • “连接主义”的复兴与开源战略:公司产品被命名为“Connection Machine”,致敬上世纪60年代的连接主义先驱。这不仅体现了团队对AI历史的深刻理解,更暗示了其构建一个互联互通、底层开放的AI生态系统的雄心。Mira Murati此前也透露,Thinking Machines的产品将包含重要的开源组件,旨在吸引开发者关注并促进社区合作,这与OpenAI近期的闭源策略形成鲜明对比,或将引发新一轮的AI开源生态竞争。3

哲学思辨与未来图景:通往可信赖智能的基石

Thinking Machines的突破引发了更深层次的哲学思考:我们如何理解和控制智能?

  • 从概率到确定性的飞跃:传统上,大语言模型常被视为概率生成器,其输出具有内在的随机性。而确定性推理的实现,意味着我们能够将AI系统从“黑箱”式的概率决策者,转化为更接近于工程学意义上的可控、可验证的计算实体。这种转变对于建立人机信任至关重要。
  • AI Agent与自主系统的伦理基石:当AI Agent开始自主决策并采取行动时,其行为的可预测性和可复现性将是伦理治理、安全审计和责任划分的根本前提。确定性推理为AI Agent提供了可追溯的行为链,使我们能够更好地理解和控制它们的决策过程,从而为构建更安全、更负责任的通用人工智能奠定基础。
  • 效率与可靠性的两难:为了实现确定性,Thinking Machines牺牲了约20%的性能。这提出了一个核心问题:在追求极致计算效率和可控、可信赖性之间,AI开发者和使用者应如何权衡? 这个问题将深刻影响未来AI系统在不同应用场景下的架构选择和部署策略。它预示着,在AI的成熟阶段,性能将不再是唯一衡量标准,可靠性与安全性将上升到同等重要的地位

风险与机遇并存:AI可靠性的双刃剑

确定性推理的突破带来了巨大机遇,但也伴随着潜在风险。

机遇方面,确定的推理能力将极大地拓宽AI的应用边界,尤其是在医疗诊断、金融交易、自动驾驶和科学研究等对精度和可靠性有极高要求的领域。它也将加速AI Agent的部署和普及,推动通用人工智能的稳健发展。在法律和金融合规场景中,确定性使得AI的决策路径可审计,大幅降低了应用风险。

风险方面,过度强调“确定性”可能会掩盖模型本身的局限性。确定性只保证结果的可重复性,而非其“正确性”或“最优性”。如果模型本身存在偏见或泛化能力不足,确定性地重复错误决策可能带来更严重的后果。此外,性能牺牲也可能限制其在某些对延迟敏感的大规模应用中的部署。如何平衡确定性与效率、如何确保确定性结果的“正确性”,是接下来需要业界共同解决的问题。

Thinking Machines的第一枪,没有轰轰烈烈的模型发布,却以一个看似“微小”却极其核心的技术突破,重塑了人们对大语言模型基础能力和未来走向的认知。它不仅仅是关于一个bug的修复,更是关于未来可靠、可控、可信赖AI系统基石的奠定。随着“Connection Machine”产品的逐步落地,Thinking Machines或将真正弥合AI的概率之美与工程的确定之严谨之间的鸿沟,引领AI进入一个更为成熟、负责任的新阶段。

引用


  1. Defeating Nondeterminism in LLM Inference·Thinking Machines·2025/9/11·检索日期2025/9/11 ↩︎ ↩︎

  2. 她们估值840亿,刚发了第一个AI成果·量子位·闻乐 鹭羽(2025/9/11)·检索日期2025/9/11 ↩︎

  3. Mira Murati says her startup Thinking Machines will release new product in months, with significant open source component·VentureBeat·2025/9/11·检索日期2025/9/11 ↩︎