TL;DR:
AI云服务正从单纯GPU租赁转向以自研AI芯片和深度系统协同为核心的全栈整合式算力系统。这场变革不仅关乎技术性能与成本效益,更是全球科技巨头在AI时代争夺战略控制权和构建产业生态的关键战役,预示着AI基础设施竞争进入深层护城河构建阶段。
人工智能已不再是点缀,而是企业生产系统里“不能停的齿轮”1。根据IDC数据,2024年中国AI公有云服务市场规模同比增长高达55.3%1,驱动力已从早期的大模型训练转向日益激增的推理需求。这种转变带来的不仅是市场规模的爆发,更是对AI云服务提出了前所未有的高标准:客户要的不再是简单的GPU卡,而是一个可信赖、可持续交付,且能在复杂环境中持续稳跑的AI算力系统,例如招商银行强调的云平台可用性需达99.999%1。
当前产业格局与“租卡思维”的终结
长期以来,业界对AI云的理解,曾停留在一种“租卡思维”:云厂商采购英伟达GPU,装入机柜,便可对外提供AI算力。然而,这种模式在当前AI浪潮下已显露致命缺陷,正加速走向终结。
首先,成本不可持续性。一块NVIDIA Blackwell B200 GPU售价高达3–4万美元,H100也需2万美元。在超大规模AI集群中,GPU成本可占总投资近一半1。据英伟达财报,全球头部云服务商已贡献其数据中心收入的50%1。这意味着,核心算力供应高度集中于单一供应商,形成事实上的成本捆绑与垄断。
其次,供应的脆弱性与地缘政治风险。美国出口限制之下,中国厂商面临严峻的采购挑战;即便海外云厂,也受限于台积电CoWoS先进封装产能的紧张1。英伟达CEO黄仁勋在台积电运动会上公开喊话“没有台积电就没有英伟达”,正反映了其对上游产能的焦虑与依赖。更甚者,英伟达也已通过DGX Cloud Lepton平台直接向开发者出租GPU,与云厂商展开正面竞争1。
第三,仅有算力无法满足高效AI需求。大模型训练和推理并非“插卡即用”的简单任务,而是需要万卡协同、低延迟互联、高利用率调度的复杂系统工程。如果云厂商仅停留在“采购+集成”层面,无法从底层干预芯片架构、通信协议、编译器优化,那么再大的集群也只能是“纸面算力”,无法转化为客户真正需要的高效AI能力1。
上述挑战共同指向一个核心洞察:AI云的底层,早已不是“租卡生意”,而是关于“芯在云在”的深层战略控制。
变革驱动力解读:从通用到专用的必然演进
云厂商为何不惜重金投入自研AI芯片?核心驱动力在于:作为AI云的“心脏”,芯片直接决定了算力供给的质量、成本与战略自主性。通用GPU无法支撑AI时代长期、专业化的算力需求,专用化、定制化、垂直整合已是必然方向。这不仅是技术路线的选择,更是关乎国家科技竞争力与企业未来命脉的战略决策。
全球云巨头战略博弈:走向何方?
面对这一结构性变革,全球顶级云厂商的路径选择已趋于明朗,并在自研芯片布局上呈现出差异化战略:
-
AWS:不争模型之名,只夺算力之权1 作为云计算巨头(2025年Q3市场占比32%),AWS拥有最完整的自研芯片布局:Graviton(通用计算)、Trainium(训练)、Inferentia(推理)1。Graviton系列已贡献AWS全球超一半新增CPU算力,能效提升逾40%1;Trainium2则展现出30%~40%的价格性能优势,预计Trainium v3将在2026年量产1。 然而,技术领先并未完全转化为AI市场的胜势,AWS云业务增速低于Azure和Google Cloud,AI收入占比仅18%1。为此,AWS采取了“双线对冲战略”:
-
微软Azure:AI入口强势,算力根基待固1 微软Azure凭借与OpenAI的紧密合作,曾是AI战略的黄金组合。然而,OpenAI明确转向多云部署(与AWS、谷歌云、甲骨文签约)1,并公开质疑微软算力供给能力,导致这一组合出现松动。微软自研芯片(Maia v2/v3)进程不及预期,短期内仍将高度依赖NVIDIA GPU1。尽管与Lambda达成了AI基础设施协议,但其本质仍是Lambda利用“微软Azure云平台部署英伟达提供的AI基础设施”1。 _微软的尴尬在于,拥有最强的AI入口,却缺乏最稳的算力根基。_若无强有力自研芯片支撑,微软恐将从AI生态定义者滑向算力服务竞争者。
-
谷歌云:全栈自研,厚积薄发1 谷歌云曾相对低调,但其全栈自研战略如今一发力,惊艳业界。自研TPU v7(Ironwood)芯片性能已接近英伟达B200,并开始对外销售,展示出产能和性能的自信1。Anthropic与谷歌云合作,未来数年将获得高达100万个TPU芯片的专属使用权,计算容量超1吉瓦,价值数百亿美元1。 谷歌构建了从底层TPU芯片、TensorFlow编译栈、Gemini系列模型,到Chrome、Gmail、Maps等应用的全栈自洽技术闭环1。这使得谷歌云Q3营收同比增长34%,运营利润率达到23%,并签署了大量超10亿美元的大额订单,显示出强劲的企业AI需求增长1。
中国AI云:自主可控与生态构建的双强时代
放眼全球,真正能走通“从芯片设计→软件栈适配→大规模集群部署→实际业务负载承载→商业化服务输出”端到端自主交付路径的云厂商仍属少数。在中国,IDC报告显示,2024年中国AI公有云服务市场百度智能云和阿里云并列第一,两家合计占据近一半市场份额,标志着中国AI云已进入“双强时代”12。
-
阿里云:全栈协同,自主核心 阿里依托“倚天+含光+灵骏平台”构建“一云多芯”体系,坚持全栈自研路线,在政务、金融等信创场景已完成大规模推理落地1。其选择明确:以全栈协同换效率,以自主核心换可控。
-
百度智能云:倒金字塔哲学与全栈闭环13 百度智能云展现出独特的战略愿景:创始人李彦宏提出AI行业需遵循“倒金字塔”结构,即“芯片之上的模型要产生10倍的价值,基于模型开发出来的应用要创造100倍的价值”1。这一哲学指导下的百度,其造芯之路早有章法,从2011年启动AI加速器立项,到2018年正式开启AI芯片产品化设计,规避了脱离市场的盲目造芯风险1。
在最新的百度世界大会上,百度发布了新一代昆仑芯片和“天池256”、“天池512”超节点方案,最高支持512张卡互联,可完成万亿参数模型训练1。百度集团执行副总裁沈抖表示,昆仑芯已成为百度自身AI系统的主力算力底座,并已在互联网金融、能源、制造、交通和教育等行业落地1。
其百舸AI计算平台5.014是关键的软硬件协同器,通过自研HPN网络和X-Link协议优化 MoE 模型通信效率。更值得称道的是,百舸兼容CUDA生态,使企业无需重写代码即可迁移现有模型,实测训练效率显著提升1。
真正让百度脱颖而出的是其**“算力—框架—模型—应用”四层闭环**,从昆仑芯、飞桨深度学习框架、文心大模型,到千帆平台与应用生态,百度是国内唯一同时拥有这四个环节自研能力的企业135。这使得其在多个客户案例中展现出强大实力,例如南方电网深圳供电局借助百度Agent技术实现智能化,北京人形机器人创新中心采用百舸支撑具身多模态大模型Pelican-VL 1.0,并实现了超越GPT-5的平均点数1。
未来竞争态势与深层影响:战略耐心的较量
“拼卡数”的游戏时代已经结束,“拼底座”的时代才刚刚开始1。未来的AI云,只有两种:一种是有自研芯片+深度协同能力的,一种是没有的。这不仅仅是技术路线的选择,更是战略耐心的较量和对未来科技自主权的争夺。
从商业角度看,这种垂直整合能力将带来显著的成本优势、性能优势和供应链韧性。具备全栈能力的云厂商能更好地优化资源,提供更具竞争力的AI服务,并在地缘政治不确定性中保持核心竞争力。对于依赖AI的企业而言,选择一个具备端到端自主交付能力的云平台,意味着更稳定的服务、更高效的创新和更可控的风险。
从社会和哲学层面审视,AI云的这一演进,正在将人工智能从一个应用层面的工具,推向一个国家级甚至文明级的基础设施。谁掌握了核心的算力底座,谁就掌握了未来AI创新和产业升级的主动权。这不仅是对经济结构和商业模式的重塑,更是对科技自主性、数据主权乃至全球地缘政治格局的深远影响。一个以“芯在云在”为核心的AI新纪元正在到来,它将不仅改变我们使用AI的方式,更将改变AI赋能人类文明的底层逻辑。
引用
-
AI云的新分野:芯在,云在·半导体产业纵横·九林(2025/11/14)·检索日期2025/11/14 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
AI云进入阿里百度的“双强时代” ? | 界面· 财经号·界面·财经号(2025/11/14)·检索日期2025/11/14 ↩︎
-
从谷歌到百度,怎么都成了“内化AI能力”的高手? - 维科号·维科号(2025/11/14)·检索日期2025/11/14 ↩︎ ↩︎
-
五年五芯,百度智能云宣布打造最硬AI云·iCloudNews(2025/11/14)·检索日期2025/11/14 ↩︎
-
AI云引领新时代百度智能云推动“人工智能+”产业深度发展·黑龙江省工业和信息化厅(2025/09/XX)·检索日期2025/11/14 ↩︎