打破英伟达的“围城”:Zyphra与AMD联手重构AI推理的算力地缘政治

温故智新AIGC实验室

TL;DR:

Zyphra的巨额融资与全栈式AMD云平台的推出,标志着AI算力市场开始从“单极依赖”向“多元异构”转型。通过针对AMD MI355X的底层优化,AI原生企业正试图绕过英伟达的生态高墙,以更具成本效益的长上下文推理能力,重塑超大规模AI的商业基础设施。

算力版图的裂痕:从“通用”到“异构”的必然选择

在AI基础设施领域,英伟达长期以来不仅提供GPU硬件,更以CUDA构建了一道稳固的软件护城河。然而,Zyphra获得的50亿美元估值及其背后的AMD“派系”策略,反映了市场对于单一算力供应链脆弱性的极度焦虑。当算力成本成为初创公司扩展业务的“阿喀琉斯之踵”时,选择AMD MI355X GPU不仅是出于经济考量,更是一种对计算生态系统的自主权博弈。

Zyphra并非简单的云服务代理,它通过深度参与ROCm生态的底层优化,证明了当软件栈能够针对特定硬件架构进行深度挖掘(如树状注意力机制、跨内核调优)时,所谓的“性能差距”是可以被技术手段填平的。这种从“硬件为王”到“软硬协同设计”的范式转变,正是当前AI基础设施竞争的深层逻辑。

技术突破的本质:在大内存空间下追求极致推理

Zyphra的核心优势在于其对超长上下文(Long-Context)处理的优化。MI355X配备的288GB HBM3E内存远超竞品,为大规模语言模型(LLM)的推理提供了更宽裕的KV Cache存储空间。

“在单请求绝对速度上,NVIDIA B200依然全面领跑;但在长文本场景下,随着上下文拉长,Zyphra的推理栈吞吐量正快速逼近B200。”1

通过采用树状注意力(Tree-based Attention)和针对ROCm深度调优的通信算子,Zyphra成功将计算瓶颈从内存带宽转移到了计算核心的执行效率上。这种优化策略不仅缩小了性能鸿沟,更重要的是,它为那些无法负担顶级英伟达集群的AI企业提供了一条“高性价比”的高性能路径。

商业版图重塑:全栈服务的生态战略

从TechCrunch的商业视角观察,Zyphra的商业模式是一个典型的“全栈集成商”。它不仅仅是租用算力,而是通过裸机GPU集群和定制化基础设施,将模型服务(Inference)、代理基础设施(Agent Infra)与计算资源进行打包。

这种模式的商业意图非常清晰:通过降低推理服务的门槛和成本,吸纳更多的开源模型(如DeepSeek、GLM系列)入驻。这不仅是对英伟达硬件霸权的挑战,更是对OpenAI等闭源模型厂商的市场分流。随着企业级AI应用向长文本交互、复杂智能体任务迁移,Zyphra所代表的这种“算力+模型”的垂直集成,可能会成为未来云原生AI企业的标准形态。

未来展望:计算主权的觉醒

展望未来3-5年,AI基础设施市场将呈现出明显的“去中心化”趋势。虽然英伟达仍将占据高端训练市场的统治地位,但推理市场的细分化将给予AMD等竞争者巨大的生存空间。

  1. 异构计算的普及:未来AI基础设施不再以单一硬件品牌为标准,而是根据负载类型(训练 vs 推理、长文本 vs 短文本)自动匹配最佳硬件架构。
  2. 算力民主化:随着Zyphra类初创公司的崛起,算力获取成本将趋于透明,这将反哺下游AI应用的发展,加速垂直领域大模型的落地。
  3. 软件栈的独立性:ROCm等开源算力栈的成熟,将最终打破CUDA的垄断,促使整个AI产业向真正的开放协议和生态迈进。

引用


  1. AI云服务商Zyphra发布了首份基于AMD旗舰芯片MI355X的端到端大模型基准测试 · X (Twitter) · 0xLogicrw (2026/5/20) · 检索日期2026/5/20 ↩︎