马斯克突然“复古”：抛弃JAX用C语言训大模型，速度暴增10倍还顺带“敲打”Anthropic？

马斯克最近搞了个大新闻：SpaceX用C语言编写的新训练堆栈，直接把大模型训练速度拉高了一个数量级。与此同时，他一边炫耀自家的GB300，一边把Colossus II超算搞得跟“房东”似的——算力租赁只签半年合同，说收回就收回。Anthropic花大价钱租的算力，可能只是一张“临时入场券”。

如果你关注AI圈，最近肯定被一条消息刷屏了：马斯克居然带着SpaceX去玩C语言了。

没错，就是那个被很多新生代程序员认为“古老”“底层”“写起来头疼”的C语言。正当全世界都在用Python、JAX、PyTorch堆叠大模型训练框架时，马斯克反手就是一波“复古风”——用C语言从头写了一个训练堆栈，而且效果炸裂：训练速度提升一个数量级。¹

你可能要问：C语言凭什么能跑赢JAX？这不科学啊？

别急，咱们慢慢聊。

先说个冷知识：目前主流的大模型训练框架（比如JAX、PyTorch）虽然方便，但本质上是在Python的“外套”底下调用C++或CUDA内核。Python的灵活性带来了快速迭代，但代价是——解释器开销和内存管理的冗余。

而马斯克这次的做法，相当于直接把外套脱了：他用C语言重写了整个训练堆栈，从数据加载、梯度计算到通信同步，全部用最接近硬件的代码实现。

这带来的好处很直白：

结果就是，马斯克说Grok 5已经用这个新堆栈训练了，速度“一个数量级”的提升。¹ 换句话说，以前需要跑10天的训练，现在可能1天搞定。这简直是给大模型训练装了喷气引擎。

当然，这种“暴力手写”并非人人都能复制。马斯克在推文里不忘招兵买马：“请注意，我发布此消息是为了鼓励那些希望从硬件中获得卓越性能的人加入SpaceX。”¹ 翻译成人话：我们这里玩的是硬核，一般人玩不转。

这个新堆栈只是马斯克算力棋局中的一步。更重磅的是硬件端的扩张——Colossus II。

这个代号“巨像二世”的超算集群，总功率达到了1吉瓦（GW），造价约170亿美元。¹ 对比一下第一代Colossus I（30-40亿美元），这一下子跳了4倍多。如果说Colossus I是个小型城市的数据中心，那Colossus II简直就是一座算力发电站。

更离谱的是建造速度：从0开始，只用了122天就拔地而起。Epoch AI估计，Colossus II将拥有相当于140万块H100 GPU等效算力。² 你品，你细品。

而且马斯克不仅自己用，还动起了出租算力的生意。

今年5月，SpaceX把Colossus I的算力租给了Anthropic（对，就是那个搞Claude的公司）。根据协议，Anthropic每月支付12.5亿美元，合同潜在总金额超过400亿美元。³ 听起来是一笔天大买卖，对吧？

但仔细看条款，你会发现马斯克留了一手——合同里写明了任意一方均可提前90天通知终止协议。³

而且马斯克本人还特意发推“澄清”：“SpaceX从未承诺长期出租，现有的只是一份180天租约。”¹ 翻译成大白话就是：我可以随时收回算力，你们Anthropic不过是临时住客。

这操作就很骚了。

表面上，马斯克在“开放共享”，实际上他手里的牌全都是自家优先。

看看SpaceX的招股书：AI基础设施已经被明确列为公司重要业务板块，与火箭发射并列。¹ 算力租赁只是副业，真正的大头是训练自家的Grok、支持特斯拉的自动驾驶、以及探索“轨道数据中心”。

而Anthropic呢？虽然暂时租到了22万块GPU的算力，总算力直接追平甚至超过OpenAI和谷歌，⁴ 但这份协议等于把命脉交到了竞争对手手里。一旦马斯克内部算力吃紧——比如Grok 5训练需要更多资源，或者特斯拉自动驾驶模型要升级——那Anthropic就得在90天内卷铺盖走人。

这还没完。马斯克还透露，Colossus II未来也可能对外租用，但“不承诺长期租赁，可以随时收回”。¹ 言下之意：外部客户，永远排在我自家需求后面。

所以，这场算力租赁本质上是一场带有“霸王条款”的博弈。Anthropic愿意签这份协议，很可能是别无选择——市面上能一次性提供300兆瓦以上算力的数据中心，一只手数得过来。与其等着被卡脖子，不如先上车再说。

但这也折射出一个更大的趋势：大模型时代的“算力主权”正在向少数超级玩家集中。未来可能不是“谁模型做得好谁赢”，而是“谁手里算力多谁说了算”。

至于C语言训练堆栈能否成为行业新标准？恐怕很难。大多数团队没有马斯克那种“从硬件层开始优化”的资源和执念。但这件事提醒我们：当技术发展到一定程度，回归底层、回归硬件，可能是突破瓶颈的唯一方式。

马斯克这一系列操作，既像科幻小说又像生意经。他用C语言证明了软件优化永远有空间，用Colossus II证明了硬件堆砌仍然是王道，用算力租赁证明了“我的算力我做主”。

下一步，推理部分的堆栈也会用C语言重写。¹ 而且随着Colossus II上线，Grok 5（据传6万亿参数）正在加速训练。² 马斯克的目标，可能是让Grok成为第一个“吉瓦级大模型”。

至于Anthropic？他们就只能默默祈祷：马斯克家的模型训练别太顺利，以免被提前收回算力钥匙。

马斯克也拥抱C语言了，大模型训练堆栈抛弃JAX，提速一个数量级·量子位·克雷西（2026/5/29）·检索日期2026/5/29 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
马斯克点火全球最大超算，首个1GW狂飙奇点！6万亿Grok 5在训·新智元（2026/1/20）·检索日期2026/5/29 ↩︎ ↩︎
Anthropic大手笔租下SpaceX顶级数据中心！深扒协议细节：22万块GPU是个什么水平？·财联社·刘蕊（2026/5/7）·检索日期2026/5/29 ↩︎ ↩︎
Anthropic 今天宣布和SpaceX 达成算力合作，并同步调高了Claude ...·X平台@dotey（2026/5/7）·检索日期2026/5/29 ↩︎