突破算力瓶颈:华为云“无Transformer”推理架构如何重塑AI Agent与智能社会

温故智新AIGC实验室

TL;DR:

华为云通过CloudMatrix384超节点和创新的xDeepServe“Transformerless”架构,将大模型推理吞吐量提升至2400TPS,显著降低时延。这一系统性突破不仅为AI Agents提供了更高效、低成本的算力基础,更预示着AI服务模式和产业生态的深刻变革,加速智能社会的到来。

2025年8月27日,华为云在第四届828 B2B企业节上宣布,其Tokens服务已全面接入CloudMatrix384超节点,通过xDeepServe架构创新,实现了单芯片高达2400TPS(Tokens Per Second)和50ms TPOT(Time Per Output Token)的超高吞吐、低时延性能。这一成就不仅是算力层面的量变,更是大模型推理架构的一次质的飞跃,标志着华为云在应对指数级增长的AI算力需求,特别是在AI Agent和实时智能应用领域,迈出了关键一步1

技术原理与创新点解析:拆解“Transformer”的深层逻辑

华为云此次性能跃升的核心,在于其CloudMatrix384超节点与xDeepServe架构的深度融合,尤其是xDeepServe提出的**“Transformerless”极致分离架构**。传统大模型(特别是基于Transformer)在推理时,由于其自注意力机制的全局依赖性,往往难以在分布式环境中实现高效的并行和线性扩展,面临内存墙、通信延迟和计算瓶颈等多重挑战。

xDeepServe的精妙之处在于,它将MoE(Mixture of Experts)大模型“拆解”成可独立伸缩的微模块:Attention、FFN(Feed-Forward Network)和Expert2。这种“积木式”的分解,使得这些微模块可以被分派到CloudMatrix384超节点上的不同NPU(神经网络处理器)上同步处理任务,极大地提升了并行度。之后,再通过基于内存语义的微秒级XCCL(eXtended Collective Communication Library)通信库与FlowServe自研推理引擎,将这些处理结果高效地重新组装起来,形成一条“超高速流水线”2

  • CloudMatrix384超节点:作为算力基石,提供了全新的计算架构和扩展后的UB互联架构(UB fabric),确保了海量NPU间的高效互联。
  • CANN昇腾硬件使能:作为硬件加速计算的中间层,优化了算子和通信策略,确保算力能以最高效的方式被调用和组合。
  • EMS弹性内存存储:打破了AI内存墙,实现了“以存强算”,彻底释放了每一颗芯片的算力潜力。
  • xDeepServe分布式推理框架:其“去中心”式的FlowServe引擎,将CloudMatrix384切成完全自治的DP小组,每个小组自给自足,实现了千卡并发而不“拥堵”的极致弹性。

这种架构创新是对大模型推理范式的一次深刻反思。它从根本上解决了Transformer模型在分布式推理中的“中心化”瓶颈,通过模块化和去中心化设计,为未来的超大规模、超低时延AI推理奠定了坚实基础。这不仅是硬件与软件的协同优化,更是对AI计算系统性工程的深刻理解和实践。

产业生态影响评估:重塑MaaS与AI Agent的商业版图

华为云Tokens服务与CloudMatrix384超节点的结合,对当前的AI产业生态将产生深远影响:

  • 加速MaaS(Model as a Service)的普及和商业化:更高吞吐、更低时延的Tokens服务,意味着企业能以更低的成本、更快的速度调用大模型能力。华为云提供的在线、离线、尊享等多种服务规格,为不同应用场景提供了灵活的选择,极大地降低了AI应用的门槛。Tokens正成为AI时代的“电力单位”,而华为云正在铺设更高效的“输电网络”2
  • AI Agent生态的关键助推器:AI Agent智能体是当前AI发展的重要方向,它们需要与环境进行高频、实时的交互,对推理时延和吞吐量有着极高的要求。华为云此次的技术突破,直接解决了Agent大规模部署的核心算力瓶颈,使其在调研分析、内容创作、智慧办公、智能运维等领域的落地变得更加可行和高效。诸如“今日人才数智员工”和“无忧智慧公文”等解决方案的涌现,正是这一趋势的直接体现2
  • 提升国产AI算力的竞争力:在全球AI算力竞争日益激烈的背景下,华为云通过全栈自研的“大杂烩”能力,从芯片(昇腾)到框架(CANN、xDeepServe)再到服务(Tokens),构建了完整的自主可控的算力体系。这不仅能满足中国市场指数级增长的AI算力需求,也提升了中国在全球AI产业中的战略地位,降低了对外部技术的依赖风险。
  • 激发模型创新与应用多样性:算力性能的提升,将鼓励开发者和研究者在昇腾云上进行更多大模型创新,包括优化现有模型(如文生图速度提升2倍,文生视频提升3.5倍2)、探索新型模型架构,以及构建更复杂的Agent应用。性能的瓶颈一旦被突破,创新就有了更广阔的土壤。

未来发展路径预测:迈向无界算力与智能涌现

华为云的这一突破,不仅着眼于当下,更描绘了未来3-5年AI算力发展的宏伟蓝图:

  • 推理吞吐量的线性延伸:xDeepServe下一步将把Attention、MoE、Decode全部改成自由流动的数据流,并将同样的方法复制到多台超节点,目标是让推理吞吐像“铺轨一样线性延伸”2。这意味着未来AI算力将能够以更灵活、更具弹性的方式横向扩展,打破单一超节点的物理限制,为更复杂、更庞大的AI模型提供无限可能。
  • 迈向更强大的Agent与具身智能:随着算力瓶吐的持续突破,AI Agent将拥有更强大的环境感知、决策和行动能力。低时延推理将使Agent的“思考”过程更加流畅、自然,甚至能够支持实时决策和物理世界中的复杂交互,推动具身智能(Embodied AI)的快速发展,例如在机器人、自动驾驶等领域实现更高级别的自主性。
  • AI基础设施的范式演进:此次“Transformerless”架构的成功,可能会促使其他云服务商和芯片厂商重新审视大模型推理的底层架构。未来,我们可能会看到更多针对特定AI任务优化的异构计算架构和分布式推理框架涌现,形成一个多元化、高性能的AI基础设施新生态。AI芯片的设计也将更紧密地与推理框架创新相结合。
  • 重塑人类与AI的协作模式:当Tokens成为无处不在的计算资源,AI服务的响应速度达到人类感知的无缝程度时,人类与AI的协作将变得更加紧密和自然。AI将不再仅仅是工具,而是成为数字世界的实时“思考者”和“执行者”,深刻改变我们的工作流、学习方式乃至日常生活。这种深度融合将引发新的伦理和社会问题,如AI责任归属、数据隐私保护等,需要行业、政府和学界共同探索和应对。

华为云CloudMatrix384超节点与xDeepServe架构的融合,不仅是一场技术性能的竞赛,更是对未来智能社会基础设施的一次深刻探索。它以系统性创新,拆解技术藩篱,驱动AI算力从“稀缺资源”向“普惠能力”转变,为智能的未来注入了强劲动力。

引用


  1. 华为云Tokens服务升级,384超节点助力实现2400TPS高性能算力·ITBear科技资讯·(2025/8/28)·检索日期2025/8/28 ↩︎

  2. 从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点·InfoQ·(2025/8/27)·检索日期2025/8/28 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎