TL;DR:
马斯克最近搞了个大新闻:SpaceX用C语言编写的新训练堆栈,直接把大模型训练速度拉高了一个数量级。与此同时,他一边炫耀自家的GB300,一边把Colossus II超算搞得跟“房东”似的——算力租赁只签半年合同,说收回就收回。Anthropic花大价钱租的算力,可能只是一张“临时入场券”。
如果你关注AI圈,最近肯定被一条消息刷屏了:马斯克居然带着SpaceX去玩C语言了。
没错,就是那个被很多新生代程序员认为“古老”“底层”“写起来头疼”的C语言。正当全世界都在用Python、JAX、PyTorch堆叠大模型训练框架时,马斯克反手就是一波“复古风”——用C语言从头写了一个训练堆栈,而且效果炸裂:训练速度提升一个数量级。1
你可能要问:C语言凭什么能跑赢JAX?这不科学啊?
别急,咱们慢慢聊。
技术大揭秘:C语言凭啥能快10倍?
先说个冷知识:目前主流的大模型训练框架(比如JAX、PyTorch)虽然方便,但本质上是在Python的“外套”底下调用C++或CUDA内核。Python的灵活性带来了快速迭代,但代价是——解释器开销和内存管理的冗余。
而马斯克这次的做法,相当于直接把外套脱了:他用C语言重写了整个训练堆栈,从数据加载、梯度计算到通信同步,全部用最接近硬件的代码实现。
这带来的好处很直白:
- 更少的内存拷贝:传统框架在Python和底层之间来回传数据,C语言直接操作内存,省掉中间商赚差价
- 更好的编译器优化:C代码可以被GCC/Clang深度优化,而Python的JIT编译(比如XLA)永远隔着一层
- 精细的并行控制:对于SpaceX手里的GB300(英伟达下一代GPU),用C语言可以直接控制SM调度、共享内存布局,榨干每一滴性能
结果就是,马斯克说Grok 5已经用这个新堆栈训练了,速度“一个数量级”的提升。1 换句话说,以前需要跑10天的训练,现在可能1天搞定。这简直是给大模型训练装了喷气引擎。
当然,这种“暴力手写”并非人人都能复制。马斯克在推文里不忘招兵买马:“请注意,我发布此消息是为了鼓励那些希望从硬件中获得卓越性能的人加入SpaceX。”1 翻译成人话:我们这里玩的是硬核,一般人玩不转。
行业“地震”:谁笑了谁哭了?
这个新堆栈只是马斯克算力棋局中的一步。更重磅的是硬件端的扩张——Colossus II。
这个代号“巨像二世”的超算集群,总功率达到了1吉瓦(GW),造价约170亿美元。1 对比一下第一代Colossus I(30-40亿美元),这一下子跳了4倍多。如果说Colossus I是个小型城市的数据中心,那Colossus II简直就是一座算力发电站。
更离谱的是建造速度:从0开始,只用了122天就拔地而起。Epoch AI估计,Colossus II将拥有相当于140万块H100 GPU等效算力。2 你品,你细品。
而且马斯克不仅自己用,还动起了出租算力的生意。
今年5月,SpaceX把Colossus I的算力租给了Anthropic(对,就是那个搞Claude的公司)。根据协议,Anthropic每月支付12.5亿美元,合同潜在总金额超过400亿美元。3 听起来是一笔天大买卖,对吧?
但仔细看条款,你会发现马斯克留了一手——合同里写明了任意一方均可提前90天通知终止协议。3
而且马斯克本人还特意发推“澄清”:“SpaceX从未承诺长期出租,现有的只是一份180天租约。”1 翻译成大白话就是:我可以随时收回算力,你们Anthropic不过是临时住客。
这操作就很骚了。
未来预测:下一个“风口”在哪里?
表面上,马斯克在“开放共享”,实际上他手里的牌全都是自家优先。
看看SpaceX的招股书:AI基础设施已经被明确列为公司重要业务板块,与火箭发射并列。1 算力租赁只是副业,真正的大头是训练自家的Grok、支持特斯拉的自动驾驶、以及探索“轨道数据中心”。
而Anthropic呢?虽然暂时租到了22万块GPU的算力,总算力直接追平甚至超过OpenAI和谷歌,4 但这份协议等于把命脉交到了竞争对手手里。一旦马斯克内部算力吃紧——比如Grok 5训练需要更多资源,或者特斯拉自动驾驶模型要升级——那Anthropic就得在90天内卷铺盖走人。
这还没完。马斯克还透露,Colossus II未来也可能对外租用,但“不承诺长期租赁,可以随时收回”。1 言下之意:外部客户,永远排在我自家需求后面。
所以,这场算力租赁本质上是一场带有“霸王条款”的博弈。Anthropic愿意签这份协议,很可能是别无选择——市面上能一次性提供300兆瓦以上算力的数据中心,一只手数得过来。与其等着被卡脖子,不如先上车再说。
但这也折射出一个更大的趋势:大模型时代的“算力主权”正在向少数超级玩家集中。未来可能不是“谁模型做得好谁赢”,而是“谁手里算力多谁说了算”。
至于C语言训练堆栈能否成为行业新标准?恐怕很难。大多数团队没有马斯克那种“从硬件层开始优化”的资源和执念。但这件事提醒我们:当技术发展到一定程度,回归底层、回归硬件,可能是突破瓶颈的唯一方式。
写在最后
马斯克这一系列操作,既像科幻小说又像生意经。他用C语言证明了软件优化永远有空间,用Colossus II证明了硬件堆砌仍然是王道,用算力租赁证明了“我的算力我做主”。
下一步,推理部分的堆栈也会用C语言重写。1 而且随着Colossus II上线,Grok 5(据传6万亿参数)正在加速训练。2 马斯克的目标,可能是让Grok成为第一个“吉瓦级大模型”。
至于Anthropic?他们就只能默默祈祷:马斯克家的模型训练别太顺利,以免被提前收回算力钥匙。
引用:
-
马斯克也拥抱C语言了,大模型训练堆栈抛弃JAX,提速一个数量级·量子位·克雷西(2026/5/29)·检索日期2026/5/29 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训·新智元(2026/1/20)·检索日期2026/5/29 ↩︎ ↩︎
-
Anthropic大手笔租下SpaceX顶级数据中心!深扒协议细节:22万块GPU是个什么水平?·财联社·刘蕊(2026/5/7)·检索日期2026/5/29 ↩︎ ↩︎
-
Anthropic 今天宣布和SpaceX 达成算力合作,并同步调高了Claude ...·X平台@dotey(2026/5/7)·检索日期2026/5/29 ↩︎