随着人工智能工作负载的激增,传统IT架构中“数据向计算靠拢”的模式已难以为继。一种全新的范式正在崛起:将计算能力前置到数据所在之处,以优化性能、提升效率,并解锁AI的全部潜力。这一转型不仅涉及硬件升级,更是一场关于软件定义存储、高效GPU利用和云原生架构的深刻变革,预示着企业级AI部署的未来。
在人工智能浪潮席卷全球的当下,业界对于算力瓶颈的讨论从未停歇。然而,问题的核心并不仅仅在于芯片的绝对数量,而在于如何高效、经济地将这些强大的计算资源与海量数据相结合。长期以来,传统的IT基础设施设计理念是:将数据从存储层传输至中央计算单元进行处理。但在AI时代,尤其是面对深度学习对GPU等专用硬件的巨大需求时,这一模式已暴露出其内在的局限性。1
技术原理解析:计算力与数据“共生”
AI工作负载的独特之处在于其对数据吞吐量和低延迟的高度敏感。训练大型模型需要处理PB级的数据,而推理过程则要求在毫秒级时间内完成复杂计算。如果数据需要长距离传输到计算节点,不仅会产生显著的网络延迟,还会占用宝贵的带宽资源,从而严重拖累GPU的利用率,使其无法发挥最大效能。2 正如业内观察所指出的,“现有的IT基础设施往往假定计算节点能够从数据中心内的任何地方获取数据,但这在AI场景下效率低下。”3
正是在这种背景下,一种新的基础设施现实应运而生:将计算能力,特别是GPU这样的专用AI加速器,直接部署在数据存储的附近,甚至整合进存储层本身。PEAK:AIO的软件定义存储层与Solidigm高性能固态硬盘(SSDs)的结合,正是这一理念的生动实践。这种组合能够横跨整个AI管道——从数据摄取、预处理、模型训练到推理和部署——提供所需的容量、效率和速度。
具体而言,PEAK:AIO的软件定义存储层提供了极大的灵活性和可扩展性,能够根据AI工作负载的需求动态分配存储资源,实现数据的并行访问和高速传输。而Solidigm的SSD则提供了超低延迟和极高IOPS(每秒输入/输出操作数),确保数据能够以GPU所需的速度被即时读取和写入。这种“计算靠近数据”的架构,有效避免了数据传输瓶颈,让GPU能够持续高效运行,最大限度地挖掘其潜力。
行业影响与挑战:重构IT基础设施
对AI的狂热追逐曾一度营造出一种错觉,认为现有的IT基础设施足以应对驱动AI所需的海量数据。但现实是残酷的:许多现存的架构在处理AI独特的工作负载时显得力不从心。2
挑战是多方面的。首先,企业在获取和有效利用AI所需的GPU算力方面依然面临显著困难。1 其次,现有的云服务和数据中心基础设施软件,最初并非为AI场景下复杂的数据移动而设计,尤其是当数据需要跨越分布式数据中心结构时。3 此外,当前的软件生态主要围绕CPU主导的数据中心构建,对于GPU、TPU等AI优化芯片的支持和管理仍显不足。3
这种现实正在促使IT行业进行一次深刻的“堆栈重构”。4 企业正转向更灵活、更原生云的架构,以满足AI工作负载对高容量数据管道和可扩展计算环境的独特需求。4 对许多组织而言,将计算和调度功能整合到单一、统一的AI/ML平台中,而非拼凑各种独立的点解决方案,正变得越来越有价值。尽管高达74%的受访者认为这很有价值,但实际上只有19%的受访者拥有能够有效优化GPU利用率的调度工具。5 这表明,尽管理念已深入人心,但从概念到实际部署仍有漫长的道路。
未来展望:AI驱动下的基础设施演进
“计算向数据靠拢”的范式转变,远不止是一项技术优化,它预示着未来AI应用的普及和深化。它将加速企业级AI的落地进程,让更多企业能够克服算力瓶颈,将AI融入其核心业务流程,实现真正的数字化转型。更高效、更具弹性的基础设施,将降低AI的部署门槛,让中小企业也能分享AI带来的红利,从而促进更为普惠的AI发展。
同时,这种趋势也对数据中心的设计、云服务提供商的战略以及AI软件生态提出了新的要求。未来,我们将看到更多针对AI工作负载优化的硬件-软件一体化解决方案,以及更加智能、自动化、能够感知并调度数据流和计算资源的AI基础设施管理平台。从长远来看,这不仅关乎技术效率,更关乎AI技术如何以可持续、可扩展的方式融入我们的社会和经济结构,确保其潜力能够得到充分释放,同时减少不必要的资源浪费。AI基础设施的演进,是支撑智能时代持续进步的无形基石,其重要性不亚于AI模型自身的突破。
引文
-
The AI resource challenge: It’s infrastructure & compute, not data scarcity ·Computer Weekly·未知作者(未知日期)·检索日期2025/6/26 ↩︎ ↩︎
-
The New Era Of Compute: How AI Impacts Observability ·Forbes·Forbes Tech Council(2025/5/28)·检索日期2025/6/26 ↩︎ ↩︎
-
Why AI Needs a New Digital Infrastructure ·IQT·未知作者(未知日期)·检索日期2025/6/26 ↩︎ ↩︎ ↩︎
-
The new IT stack: Rebuilding infrastructure for an AI-first world ·CIO·未知作者(未知日期)·检索日期2025/6/26 ↩︎ ↩︎
-
The State of AI Infrastructure at Scale 2024 ·AI Infrastructure Alliance·未知作者(2024/3)·检索日期2025/6/26 ↩︎