TL;DR:
在AI算力狂飙突进之际,不为人知的“存力”正成为制约大模型潜能释放的关键瓶颈。以Vast Data为代表的Universal Storage架构,凭借其统一、高效、低延迟的软件定义能力,正重塑万亿级存储市场格局,吸引资本蜂拥而至,预示着一场深刻的商业范式转移和全球范围内的投资热潮。
当全球的目光都聚焦于AI芯片的迭代速度和模型参数量的几何级膨胀时,一个同样基础却往往被忽视的角落——数据存储——正悄然进行一场深刻的变革。如果说算力是驱动AI的澎湃引擎,那么存力便是为其提供不竭动能的“燃料库”,而运力则是输送燃料的血管。然而,这片数字“粮仓”在AI的饥渴面前,却一度显得陈旧且效率低下。硅谷新锐Vast Data,一家成立仅九年的公司,正以其令人咋舌的估值飞涨,向世界宣告存力革命的到来:其估值在短短一年半内从91亿美元跃升至300亿美元,成为资本市场眼中新的宠儿,背后不乏Alphabet旗下CapitalG和英伟达等巨头的身影。这不禁让全球投资者开始思考:当大模型的数据洪流拍岸,传统存储的“堤坝”将如何应对?
当AI遇见旧硬盘:数字洪流的窘境
AI的崛起并非一帆风顺,其背后是对数据的无尽贪婪与对效率的严苛要求。自Transformer架构横空出世,大模型的发展重心便从最初的参数规模竞赛,逐步演进至如今的推理优化与Agent协作。在这个过程中,存储所面临的挑战亦随之升级,不再是简单的“存下来”那么粗糙。
首先,是极致的性能需求。传统互联网应用所满足的MB/s级吞吐和10ms级延迟,在AI世界里显得捉襟见肘。大模型训练需要数十GB/s的持续读写和亚毫秒级延迟;推理阶段则可能面临百GB/s级的突发吞吐与1ms以内的响应门槛;而多Agent协作,这一被视为AI未来最具想象力的板块,甚至要求集群聚合带宽达到500GB/s至1TB/s,并保持亚毫秒级的存储响应,否则Agent间的任务流转将如高速公路上的拥堵般寸步难行。与此同时,并发复杂性和数据一致性在Agent多任务、多用户场景下达到了前所未有的高度。
其次,是多模态数据的统一管理和版本追溯的迫切性。从文本到图像、视频、音频乃至3D点云,AI处理的数据类型日趋多元,传统按“块”、“文件”、“对象”泾渭分明的存储方案,无异于为数据搭建了多座语言不通的“巴别塔” 1。数据在不同格式间反复拷贝,不仅造成冗余和延迟,更让模型微调与A/B测试中的版本管理成为噩梦。GPT-4在RLHF阶段需要追踪数万次人类反馈数据,这要求存储系统具备如时间机器般的数据快照与版本链能力。更进一步,Agent记忆的持久化——将碎片的记忆数据高效存入图、文件、向量、对象等多模态模块,并实现无缝、低延迟的跨模态检索与并发控制——是其实现连贯性和个性化服务的基石。
再者,是对“以存代算”的呼唤。AI推理,尤其是多轮对话场景下的Attention机制,存在大量的重复计算。例如,DeepSeek 70B模型每10分钟产生25TB的KV Cache,而GPU显存区区几十GB,使得珍贵的算力被用于重复矩阵运算而非推理优化。通过将KV Cache等中间结果持久化到高速存储层,以存储IO访问替代GPU的重复计算,可将显存压力从平方级降至线性级,从而大幅提升推理效率,成为AI基础设施领域的全球共识 2。
最后,在地缘政治的波诡云谲下,“自主可控”和“安全性”不再是锦上添花,而是生死攸关的底线。存储系统必须能够无缝适配国产化AI生态链,同时确保数据隔离、防泄密和跨境合规。
值得警惕的是,尽管硬件领域已进入“超摩尔时代”:NVMe SSD容量年增50%+,远超摩尔定律的20%;异构计算带来算力爆发式提升;RDMA网络将延迟降至十微秒级。然而,传统的存储系统软件却如同一件绣满补丁的旧衣,其OS内核依赖导致系统调用与上下文切换的巨大开销,数据在内核与用户空间之间的多次拷贝,以及元数据与数据混合存储的扩展性缺陷,共同造成了硬件性能与软件效率之间显著的“剪刀差”——硬件的潜能被传统软件架构的低效率所吞噬,数据洪流在抵达GPU前便被阻塞,算力在等待数据搬运中空耗。
“万能药”的崛起:Universal Storage的商业逻辑
面对传统存储架构在AI时代的黔驴技穷,一套全新的“万能药”——Universal Storage架构——应运而生。这并非简单的修修补补,而是一次根源性的范式转移。它旨在通过单一软件平台,将传统的块存储(SAN)、文件存储(NAS)、对象存储以及新兴的KV存储、向量语义存储等所有存储资源进行抽象化、池化 3。其核心思想,如同将散落在各处的数字“碎片”汇聚成一个无缝的整体,消除了数据孤岛的“巴别塔魔咒”,并以此适配“GPU + NVMe全闪 + RDMA网络”的新硬件栈。
Vast Data的方案便是这一理念的生动写照。其Distribute, Assertive, Shared Everything (DASE) 架构,通过构建一个全域统一文件系统,提供文件、对象、块、KV等多种协议访问接口。这意味着,Agent A将数据写入对象存储后,Agent B可以立即通过文件接口直接读取处理,Agent C则能以块接口挂载,实现极致性能的随机读取。数据无需迁移,格式无需转换,TCO(总拥有成本)因此显著降低,运维复杂度也从多维度降至一维。
更具颠覆性的是,Universal Storage架构通过元数据独立存储,解决了传统集中式元数据管理的扩展性瓶颈。元数据被专用的分布式引擎管理,存储在持久内存或高速SSD中,无论文件数量如何膨胀,查找和列表操作依然快如闪电,避免了元数据热点对性能的拖累。
然而,最大的突破在于其对OS内核依赖的摆脱。Vast Data的用户态驱动能够通过RDMA,将数据直接从NVMe硬盘“零拷贝”地送入Agent进程内存,甚至直达GPU显存。这一操作绕过了操作系统内核的繁琐调用和上下文切换,将延迟降至数十微秒级,使得GPU得以持续高效计算,如同解除了“紧箍咒”的孙悟空。这不仅是性能的解放,更是对存储系统软件效能的一次几何级提升,其提升幅度可类比GPU之于CPU在特定计算场景下的效率跃迁。
Universal Storage架构将存储从“以多台互相孤立的硬件设备为中心”的分散模型,转变为“以全局统一数据为中心”的聚合模型。它通过软件定义的方式,为AI、数据分析等现代工作负载提供了前所未有的性能、扩展性和简洁性。这种架构创新,无疑是Vast Data能够在资本市场呼风唤雨的核心原因。
东方寻宝:谁能复制“Vast Data”神话?
Vast Data的成功并非偶然,而是对AI时代核心需求的精准捕捉与底层架构的勇敢重构。这也为中国市场提供了一个清晰的对标画像。欲在中国寻找能够与之匹敌的企业,首先必须拥有一支具备深厚技术背景、长期自主研发能力的团队。这样的团队不仅需要强大的创新与工程能力,更需在企业级关键业务场景——特别是技术难度顶尖的分布式块存储领域——拥有丰富的实践经验。分布式块存储被视为企业级存储系统的“皇冠上的明珠”,它承载着最关键的业务数据,对极高频随机读写、最低延迟、数据一致性和业务连续性有着最严苛的要求。Vast Data的CEO Renen Hallak正是前EMC ScaleIO核心开发者,其团队的履历已然说明一切。
其次,战略视野、创新勇气和工程能力缺一不可。这要求企业能够从底层系统开始,结合新一代硬件与AI时代数据融合访问的需求,研发出统一的分布式存储架构。这套架构不仅需适配通用硬件,构建统一资源池,支持块、文件、对象等传统接口,更关键的是,要创新设计新的IO访问路径和接口,以支持KV Cache全局持久化共享、Agent记忆存储等AI核心场景,使其成为AI应用的“刚需品”。
最后,生态开放性和硬件中立性至关重要。未来的存储巨头,将是真正“软件定义”的王者,不依赖特定专属硬件,能够无缝对接国产算力芯片、硬件、训练/推理框架、Agent以及云计算、数据库等整个国产AI堆栈生态链。在地缘政治与技术博弈的背景下,这一点更显其战略意义。
这轮由AI催生的对存储性能、扩展性、数据融合以及“以存代算”的新兴需求,正预示着传统企业级存储市场的一场大洗牌和颠覆性机遇。随着推理、Agent、RAG(检索增强生成)等应用的爆发,数据量将进一步狂飙突进,存储层的投入也将水涨船高。存储作为基础性“耗材”,其分布式架构的“从小规模起步,随数据增长轻松扩容”特性,使其有望在短短数年内成为企业采购下一代存储的首选。加之其高技术与工程门槛所构筑的深厚护城河,以及客户迁移成本高昂的特性,使得这一领域的营收质量和可持续性更具吸引力。
毫无疑问,新一代Universal Storage存储软件赛道正成为资本竞逐的焦点。在这场数字基础设施的重构浪潮中,谁能真正填平万亿AI存储鸿沟,谁便可能在未来AI Agent应用的广阔天地中,获得新的权杖,甚至诞生出比Vast Data更为卓越的中国存储软件巨头。
引用
-
打破“巴别塔魔咒”:统一AI数据平台重构存力格局·知乎·(2025/8/26)·检索日期2025/8/26 ↩︎
-
AI数据平台,中国或有更优解·yesky.com·(2025/8/26)·检索日期2025/8/26 ↩︎
-
填平万亿AI存储鸿沟的方法与挑战解析·36氪·(2025/8/26)·检索日期2025/8/26 ↩︎