超越随机性的迷思：FP4训练突破如何重塑AI算力经济学

TL;DR：

AMD与宾夕法尼亚州立大学的最新研究证实，FP4训练不稳定的根源在于结构性微缩放误差而非随机性不足，通过确定性变换替代随机化，成功实现了全流程原生FP4预训练，预示着大模型算力成本将迎来新一轮的量级压缩。

技术诊断的范式转移

长期以来，大模型训练精度从FP16到FP8的演进被视为理所当然的性能红利，但当技术触碰FP4的边界时，行业陷入了“混乱”。此前的主流观点认为，低精度带来的剧烈抖动是因为舍入噪声的积累，因此业界寄希望于通过随机舍入或随机Hadamard旋转等“统计平滑”手段来拯救收敛性。

然而，这篇发表于2026年5月的论文提供了一个极具反直觉的洞察：随机性并非“良药”，反而是致病源。 研究团队通过对Transformer线性层的前向传播、激活梯度（Dgrad）和权重梯度（Wgrad）进行解耦实验，发现Wgrad是精度崩塌的“罪魁祸首”。在Wgrad路径中，MXFP4微缩放引入的结构化误差，若配合每步变化的随机策略，会产生非线性的误差累积放大。确定性Hadamard旋转之所以有效，是因为它提供了一种可预测的、静态的变换模式，使得量化误差保持在模型可修正的线性范围内。

算力效率的“二次解耦”

这一发现不仅是算法层面的修复，更具备深远的商业敏锐度。实验数据显示，在AMD Instinct MI355X硬件上，通过确定性稳定化，端到端训练性能实现了9-10%的实际加速。更重要的商业信号在于：

硬件效能的完全释放：此前的硬件（如Blackwell架构）虽宣称支持FP4，但多被局限于推理侧。此次实验证明，MI355X的原生FP4算力可直接转化为训练吞吐量，这意味着数据中心的计算密度在不增加电力消耗的前提下，获得了理论上的翻倍潜力。
开放标准的胜利：MXFP4作为OCP（开放计算项目）标准的一部分，此次验证展示了跨生态的可移植性。这打破了特定厂商的“闭源算法”垄断，为中小规模企业利用标准硬件进行高效预训练提供了路径。

产业格局的深层连锁反应

从大模型生态来看，这一技术的成熟将引发三个层次的变革：

训练成本的边际递减：继DeepSeek-V3以FP8压低成本后，FP4的规模化应用将进一步降低训练门槛。这种成本的下降不仅仅是数字上的，更意味着AI开发过程中的“试错成本”大幅降低，从而刺激更多企业进行长尾领域的小参数模型自研。
梯度路径的哲学思辨：算法的进化正在从“海量数据+暴力计算”向“计算结构优化”转向。当技术能够通过数学变换（如确定性旋转）抵消硬件精度损失时，这意味着我们正在学会如何用更低的物质熵，换取更高的逻辑熵。
算力供需关系再平衡：随着训练效率提升，现有算力储备的“寿命”被延长，缓解了当前算力资源紧张的局面。同时，这也对上游芯片厂商提出了更高的要求——即如何在不牺牲稳定性的前提下，进一步缩减数据位宽。

未来发展路径预测

未来3-5年，我们预计大模型训练将进入“位宽下钻”时代。FP4不会是终点，甚至FP2或定制化的块浮点格式（Block Floating Point）也将进入视野。但正如研究者所警告的，FP4训练的行为具备高度的“设置依赖性”——针对不同的模型架构（如MoE与Dense架构差异）和数据集，稳定化策略可能需要动态调优。

我们正站在一个临界点：AI硬件性能的增长速度已无法单靠晶体管的物理堆砌，必须依赖软件与算法对于低精度计算结构的精细重构。这场关于“FP4稳定性”的争论，实际上是计算科学在应对AI规模化浪潮时，对于“精度与效率”这一永恒矛盾的最新阶段总结。

技术诊断的范式转移

算力效率的“二次解耦”

产业格局的深层连锁反应

未来发展路径预测

引用