突破“黑盒”迷雾:TML与Mira Murati如何重塑AI可靠性,开启产业新纪元

温故智新AIGC实验室

TL;DR:

前OpenAI CTO Mira Murati创立的Thinking Machines Lab(TML)发布开创性“批次不变内核”方案,成功解决大语言模型推理中的随机性痛点,为高风险行业AI应用扫清障碍。此举预示着AI发展从追求模型规模向强调可靠性与可解释性的关键范式转变,并有望释放万亿级企业级AI市场潜力。

在人工智能浪潮的巅峰,大语言模型(LLMs)以其惊人的生成能力改写着技术前沿的定义。然而,在光鲜亮丽的背后,一个长期困扰业界的“幽灵”——AI输出的随机性和不可预测性——始终如影随形。无论是法律合同的风险提示,还是智能客服的问答回复,同一输入却可能得到截然不同的结果,这不仅削弱了用户信任,更严重阻碍了AI在关键、高风险领域的落地应用。如今,由OpenAI前CTO Mira Murati创办的Thinking Machines Lab(TML)正以其首份研究成果,为终结这种“推理乱象”提供了里程碑式的解决方案,预示着AI可靠性将成为下一个技术竞争高地和商业价值富矿。

揭示大模型“非确定性”的深层根源

长期以来,业界普遍将AI输出的随机性归咎于“随机种子”设置或模型固有的非确定性。然而,TML的研究博客Connectionism在其首篇文章中,揭示了一个更为底层且难以察觉的“元凶”:并行计算中的“批次处理”技术细节及其引发的浮点数运算累积误差1

简而言之,当大型模型在GPU集群上处理海量用户请求时,这些请求会被打包成大小不一的“批次”(batches)。不同批次大小、序列长度以及KV缓存状态的动态变化,会影响GPU内核(kernel)的选择策略,进而改变计算的执行顺序。更深层次的问题在于,计算机在处理浮点数运算时,由于精度限制,(a+b)+c 和 a+(b+c) 这类数学上等价的运算,在机器层面可能产生微小的数值差异。这些看似无关紧要的差异,在大模型的数万亿参数和层层递进的神经网络中,如雪球般不断放大,最终导致即使输入完全相同,输出结果也可能大相径庭。这种“批次不变性”的缺失,才是大模型随机性的核心症结。

TML的工程创新:批次不变内核与信任基石

面对这一系统性挑战,TML团队交出了一份极具工程智慧的答卷——**“批次不变内核”(Batch-Invariant Kernel)**方案1。该方案的核心思想在于,无论数据如何分批、如何分组,AI系统中的关键计算模块——尤其是RMSNorm、矩阵乘法和注意力机制这三个对大模型推理至关重要的组成部分——都必须按照预设的、严格一致的步骤得出相同的中间结果。通过对这些核心模块进行专门优化,TML确保了计算流程在不同批次和并行策略下保持确定性,从而从根本上消除了随机性。

这项技术突破的严谨性得到了实验数据的有力支撑。团队采用拥有2350亿参数的Qwen3-235B-A22B-Instruct-2507模型进行测试:在传统的AI系统中,对同一问题进行1000次推理,可能产生高达80种不同的结果;而应用TML的“批次不变内核”方案后,只要输入内容不变,AI每次都能输出完全相同的答案,这在大语言模型发展史上尚属首次12。尽管初期会引入一定的性能损耗,但经过优化后,目前的性能影响已在可接受范围。

从“玄学”到“工程”:重塑企业级AI的应用边界

TML的技术创新,不仅仅是算法层面的优化,更是对AI应用边界的深刻重塑。长期以来,AI模型的“黑盒”属性和不可预测性,使得其在对可靠性、可审计性要求极高的行业难以大规模落地。

  • 医疗诊断领域,AI辅助系统若对同一患者的影像或病理报告给出前后矛盾的分析,将直接危及诊断准确性,干扰医生的决策,甚至引发医疗事故。
  • 金融风控领域,AI模型对相同贷款申请的评估结果波动,不仅可能导致风险误判、资产损失,更可能触犯严格的合规红线,面临巨额罚款和声誉危机。
  • 法律咨询、自动驾驶决策、工业控制等领域,任何随机性都可能带来灾难性后果。

TML的“批次不变内核”方案,为这些高风险行业提供了急需的“安全锁”和“信任基石”。它将AI的决策过程从过去的“玄学”推向了可控、可验证的“工程学”范畴。这意味着企业可以更有信心地将AI部署到核心业务流程中,实现真正的数字化转型和智能化升级。TML虽然尚未公布具体的商业化计划,但其技术对金融和医疗行业已经展现出巨大的、尚未被满足的市场需求和商业潜力1

穆拉蒂的战略远见:从规模竞赛到可靠性革命

TML的成立及其首份成果,也折射出创始人Mira Murati对AI发展路径的独特理解和深刻洞察。在大多数AI公司仍在竞相追逐更大模型、更强生成能力的当下,Murati却选择了一条“反其道而行之”的道路:不追求更强模型,而是致力于填补AI能力与人类需求之间的差距,解决可靠性问题1

这与她在OpenAI期间的经验息息相关——作为ChatGPT等核心技术的开发者,她深知技术越强大,对可靠性、可控性和可解释性的要求就越高。TML的使命,正如其研究博客命名“Connectionism”(联结主义)所暗示的,是要回归AI的基础研究,让AI的运作机制不再是神秘莫测的“黑匣子”,而是能被理解、被信任的系统。这种战略选择,不仅体现了对技术失控风险的深刻警惕,更展现了构建更智能、更人性化、可定制且通用AI系统的长远愿景34

TML团队的豪华阵容——包括OpenAI联合创始人John Schulman、前研究副总裁Barret Zoph以及AI安全专家Andrew Tulloch等——也证明了这一研究方向的战略重要性1。这些核心人才的加入,不仅带来了顶尖的AI研发能力,更凝聚了对AI未来负责任发展的共同信念。

资本的判断:AI可靠性将是下一波淘金热?

TML在成立短短七个月内,在未发布任何产品的情况下,便完成了20亿美元的种子轮融资,估值高达120亿美元(有报道称或达200亿美元),领投方为硅谷顶级风投a16z,英伟达、AMD、思科等科技巨头也参与其中13。这一惊人的融资速度和估值,清晰地表明了资本市场对AI可靠性这一赛道的高度认可和强烈信心。

这不仅是对Mira Murati及其团队实力的信任,更是对AI基础设施中“可信赖”这一核心价值的超前投资。它传递出一个明确信号:在AI技术日益普及的背景下,解决其固有的不确定性、提高稳定性和可解释性,将是解锁更广阔商业应用、实现技术深度融合社会的关键。资本看中的不仅仅是TML的技术本身,更是其作为构建未来AI信任层基石的战略地位,这或将引发新一轮围绕AI可靠性、安全性与治理的投资热潮。

超越技术:迈向可信赖的AI文明未来

TML的“批次不变内核”技术突破,其意义已远超单一的技术进步。它标志着人工智能发展进入了一个新的阶段:从单纯追求计算能力和模型规模的“蛮力时代”,向更加注重“可信赖”、“可控性”和“与人类价值对齐”的“工程化文明时代”迈进

当AI不再是变幻莫测的魔法,而是能提供稳定、可预测结果的工具时,我们才能真正将其融入社会经济的肌理,赋能更广泛的行业,解决更复杂的人类挑战。这不仅关乎商业效率和风险规避,更触及了AI伦理、治理和社会信任的深层议题。TML的研究为AI的责任性创新树立了新的标杆,也为构建一个更加智能、安全、可靠的人工智能文明指明了方向。未来3-5年内,我们可以预见,“可信赖AI”将从一个学术概念,转变为衡量所有AI产品和服务的核心竞争力指标,并催生一个全新的围绕AI可靠性、可审计性、可解释性技术及服务的新兴生态系统。

引用