TL;DR:
MLPerf Storage v2.0测试结果清晰地揭示,在AI训练中,存储性能已成为释放GPU算力潜能的关键瓶颈。高效的存储解决方案不仅关乎训练效率和成本,更决定了大规模AI模型能否稳定、可扩展地迭代,引发了以太网与InfiniBand在AI基建领域的深层商业与技术博弈。
在当前AI爆炸式增长的时代,全球的目光几乎都聚焦在GPU等核心计算芯片的突破上。然而,在一片对算力的狂热追逐中,一个往往被忽视的“盲区”正日益凸显其战略重要性——那就是为GPU提供燃料的存储系统。如果将GPU比作发动机,那么存储系统便是源源不断供应高质量数据的油路。一旦油路不畅,再强大的发动机也只能空转,甚至熄火。最新的MLPerf Storage v2.0基准测试结果,正以前所未有的清晰度,为我们揭示了这一深层基建瓶颈的本质及其对AI未来发展的深远影响。
突破计算瓶颈:MLPerf Storage v2.0揭示AI训练的存储新范式
MLPerf Storage由国际AI工程联盟MLCommons发布,是业界公认的权威AI存储基准测试套件,旨在真实模拟大规模分布式AI训练集群的存储负载。其v2.0版本引入了三类极具代表性的I/O模式,并首次增加了Checkpoinging(检查点)负载,这四种负载共同构成了对存储系统最全面的考验。
- 3D U-Net医疗分割负载:代表大文件连续读取场景,每个样本约146 MB。这类任务对存储系统的读吞吐性能要求极高,强调高带宽和多节点并发访问下的稳定性。它考验的是存储系统能否像高速公路一样,源源不断地输送大批量的“货物”。
- ResNet-50图像分类负载:典型的小样本高并发随机读取,每个样本仅150 KB。数据以TFRecord格式打包在大文件中,导致大量随机I/O和频繁的元数据访问。这项负载对存储系统的**IOPS(每秒读写操作数)**提出了苛刻要求,是衡量其在碎片化数据处理能力的关键指标。
- CosmoFlow宇宙学预测负载:强调跨节点、海量小文件访问和带宽扩展性。每个样本约2 MB,同样以TFRecord格式存储。该负载对低延迟和元数据处理能力极为敏感,随着节点规模的增加,任何延迟波动都会被显著放大,从而拖慢整体训练速度。
- Checkpointing负载:V2.0新增,模拟大模型训练中大文件多并发顺序写的检查点落盘与恢复。在大型语言模型(LLM)训练中,为了防止长时间训练中断而前功尽弃,周期性地保存模型状态(Checkpoint)已成为标准实践。这项负载直接关联到训练的可靠性与容错能力,其性能不足将直接导致训练中断恢复时间延长,甚至失败 1。
这些负载共同勾勒出AI训练中复杂多变的存储需求图谱,远非简单的“快”字所能概括。衡量存储系统效能的关键,已不仅仅是原始吞吐或IOPS,而是其在满足GPU利用率阈值(如3D U-Net和ResNet-50需90%以上,CosmoFlow需70%以上)的前提下,能够支撑的最大GPU数量以及底层网络带宽的利用率。
性能角力与技术路线:以太网与InfiniBand的抉择
MLPerf Storage v2.0的测试结果呈现了两大主流存储技术路线的激烈博弈:
1. 以太网(Ethernet)解决方案:灵活性与成本效益的平衡者
以太网系统,包括Alluxio、JuiceFS和Oracle等厂商,通常基于云环境或通用硬件,通过标准以太网提供分布式存储能力。它们在灵活性和成本效益方面占据优势,尤其是在大规模AI训练中,能够不依赖昂贵的专有硬件。
- 3D U-Net负载:JuiceFS和Oracle表现出色,尤其JuiceFS支撑了最多的H100 GPU,并维持了86.6%的高带宽利用率 2。这表明优化良好的以太网存储能在高带宽场景下发挥巨大潜力。
- ResNet-50负载:JuiceFS再次领先,支撑了500张H100 GPU,实现72%的网络带宽利用率 2,远高于同类产品约40%的水平。这突出显示了软件定义存储在小文件高并发随机读场景下的优化能力。
- CosmoFlow负载:JuiceFS和Oracle继续领先,JuiceFS通过10个客户端支撑100张H100 GPU 2。尽管面临挑战,但其表现证明了以太网方案在元数据处理和延迟控制方面经过优化后,也能应对部分延迟敏感型任务。
以太网方案的优势在于其普适性、标准化和不断演进的性能。随着RoCE(RDMA over Converged Ethernet)等技术的普及,以太网在延迟和吞吐方面正逐步逼近传统高性能网络,成为许多企业构建AI基础设施的“经济且可扩展”之选。
2. InfiniBand (IB) 及 RoCE-Ethernet 解决方案:极致性能的代价
DDN、Hewlett Packard、Ubix和焱融等厂商提供的基于InfiniBand或RoCE(RDMA over Converged Ethernet)网络的存储解决方案,多以软硬一体机形式出现。它们通常配置极高的硬件规格和专有网络,旨在提供极致的带宽和最低的延迟。
- CosmoFlow负载:基于IB网络的系统在该负载下表现尤为突出 2。由于其系统性提供的全链路极低且高度稳定的延迟,在对延迟敏感、小文件海量并发访问的CosmoFlow任务中,IB网络的性能优势无可匹敌。这是IB在科学计算和高性能集群中长期占据主导地位的根本原因。
- 整体表现:虽然IB/RoCE方案能提供极高的总带宽(最低400 GiB/s,最高超1500 GiB/s)2,但从带宽利用率来看,这些高端方案普遍低于50% 2,甚至在某些负载下网络利用率不突出 2。这揭示了一个关键的商业与技术权衡:原始性能的提升并不总是等同于资源利用效率的提高。高昂的硬件成本若未能被软件充分榨取,其总体拥有成本(TCO)会迅速攀升。
这场存储性能的博弈,本质上是通用性与专用性、成本与极致性能、软件优化与硬件堆砌之间的较量。
商业敏锐度:效率、成本与产业生态竞争
MLPerf Storage v2.0不仅是技术基准测试,更是一面透视AI产业商业逻辑的镜子。
- 投资逻辑的转变:过去对AI基础设施的投资往往重“算力”而轻“存储”。然而,测试结果明确指出,存储瓶颈将直接导致昂贵GPU资源的闲置。这意味着,未来的AI投资将更加注重系统性优化,将存储视为与GPU同样重要的“战略资产” 1。企业和投资者需要重新评估其AI基础设施的建设计划,避免“木桶短板”效应。
- “软件定义”的价值凸显:以JuiceFS为代表的软件定义存储(SDS)在以太网环境中展现出的高带宽利用率,证明了软件优化对硬件潜力的释放至关重要。尤其在云计算和混合云场景下,SDS的灵活性、可扩展性和对多种协议的支持,使其成为应对复杂AI负载的理想选择。
- 云服务商的战略优势:Oracle等云厂商的参与和优秀表现,印证了云原生存储在AI训练中的潜力。云服务商凭借其庞大的基础设施、规模效应和持续的技术投入,将提供更加一体化、弹性可伸缩的AI存储解决方案,进一步巩固其在AI生态中的核心地位。
- 新兴竞争格局:MLPerf Storage v2.0的开放性,吸引了从传统存储巨头(DDN、HPE)到创新型SDS厂商(JuiceFS、Alluxio)的广泛参与。这预示着AI存储市场将迎来更加激烈的竞争,谁能提供最佳的性能-成本比,谁就能赢得市场。
未来展望:AI存储架构的演进与深层影响
从MLPerf Storage v2.0的洞察出发,我们可以预测未来3-5年AI存储架构的演进路径及其对人类文明进程的深层影响。
- AI模型复杂度与数据规模的指数级增长:未来的AI模型将突破万亿参数,甚至更大。这将导致数据集的规模从PB级迈向EB级,对存储的容量、吞吐和管理能力提出前所未有的挑战。检查点(Checkpointing)的频繁写入和恢复将成为常态,要求存储系统具备极高的写入性能和可靠性。
- 异构存储与数据生命周期管理:单一存储类型将难以满足所有AI负载需求。多层级、异构的存储架构将成为主流,例如:热数据(训练中频繁访问)置于高性能、低延迟存储(NVMe-oF、IB);温数据(模型微调、推理)置于平衡性能与成本的存储;冷数据(归档、备份)置于成本最低的对象存储。智能数据分层和生命周期管理将变得至关重要。
- 网络融合与协议创新:以太网的带宽和延迟将持续优化(如800GbE甚至更高),同时RoCEv3/v4等技术将进一步提升其RDMA能力,缩小与InfiniBand的性能差距。未来可能会出现更加智能的网络协议和负载均衡机制,以最大化利用网络资源。
- 存储即服务 (Storage-as-a-Service, STaaS):云厂商和专业存储服务提供商将提供更加精细化、按需付费的AI存储服务。用户无需关注底层硬件,只需通过API调用即可获得所需性能和容量,降低AI训练的门槛和运营成本。
- 边缘AI与本地化存储:随着AI向边缘设备和物联网(IoT)渗透,边缘AI对本地化、高性能、低功耗存储的需求将日益增加。这将催生更小巧、更智能、具备联邦学习能力的分布式存储解决方案。
从哲学思辨的角度看,AI算力基础设施的演进,不仅仅是技术参数的优化,更是人类探索智能边界、加速科学发现、重塑产业格局的物质基础。高效、可扩展且经济的存储,将民主化高端AI训练的能力,使更多研究者和创新者能够参与到AI的浪潮中。这不仅能加速药物发现、气候模型预测等科学领域的突破,也将深刻改变工业制造、金融服务、文化创意等领域的生产力模式。然而,对海量数据的存储和处理,也伴随着数据安全、隐私保护和能源消耗等伦理与环境挑战。如何平衡效率、创新与可持续性,将是AI时代我们必须持续思考的深层命题。
总结而言,MLPerf Storage v2.0的测试结果无疑是对AI产业发出的一个清晰信号:存储不再是AI计算的配角,而是决定AI发展速度与规模的关键基石。理解并战略性地投资于高效的AI存储基础设施,是解锁未来AI潜能、在全球AI竞争中占据优势的必由之路。