TL;DR:
OpenAI为了抢GPU,内部差点打出脑浆,一年更是烧掉70亿美金,堪称烧钱机器。幸好“金主爸爸”微软及时送来全球首台GB300超算,这下训练万亿大模型再也不用等天荒地老了,AI界的军备竞赛又升级了!
最近科技圈最热的瓜,莫过于OpenAI的“GPU荒”了。这家站在AI浪潮尖端的公司,一边狂飙突进,一边却被最核心的资源——图形处理器(GPU)——卡住了脖子。一年烧掉70亿美元,算力需求却是个无底洞。眼看着内部团队为了几块GPU**“大打出手”,焦头烂额之际,“金主爸爸”微软终于出手了!全球首台配备了超过4600个GB300 NVL72的超级AI集群,C位出道,直奔OpenAI而来。这不就是及时雨**,妥妥的“救场巨兽”吗?
钞能力续命?OpenAI烧钱烧出新境界!
你以为70亿美元是什么概念?这么说吧,这笔钱够买下好几架私人飞机,或者在地球上打通N条高速公路了。而OpenAI,光是2024年,就把这么多钱砸在了算力上,其中大模型研发就占了惊人的50亿美元,推理计算也烧掉了20亿美元1。这简直是把钱当纸烧啊!
用OpenAI总裁Greg Brockman的话来说,内部如何分配GPU,简直就是一场“痛苦与煎熬”1。各个团队都憋着大招,每个人都有“绝妙的点子”等着算力去实现,可GPU就那么点,这不就是僧多粥少的真实写照吗?团队之间抢资源,那叫一个激烈,恨不得把别人的GPU都**“偷走”**。
"内部如何分配GPU,简直就是一场痛苦与煎熬。" —— OpenAI总裁Greg Brockman,这怨气,隔着屏幕都能感受到了!
OpenAI首席产品官Kevin Weil也曾直言不讳地表示:“我们每次拿到新的GPU,它们都会被立刻投入使用。”1 这说明啥?这说明OpenAI对算力的需求,简直是永不满足!就像一个拥有无限胃口的饕餮巨兽,吞噬着GPU,只为让AI应用的能力冲上云霄。
GB300巨兽驾到:这超算,到底有多"猛"?
就在OpenAI愁得头发都快掉光的时候,微软CEO萨提亚·纳德拉亲自官宣,全球首个配备超4600个GB300 NVL72的生产级超大规模AI集群率先上线,并且专供OpenAI!预计未来还将扩展到十万块GPU,这手笔,简直就是壕无人性!
这个GB300超算到底有多“猛”?英伟达霸气表示,有了这玩意儿,OpenAI训练万亿参数模型,以前可能要数周才能搞定,现在数天之内就能完成。这速度,简直是开了挂!
这台超算可不是简单粗暴的GPU堆叠,微软可是把计算、内存、网络、数据中心、散热、供电,技术栈的每一层都重新设计了一遍,力求打造出**“地表最强”**。
- 硬件层面, 每个机架包含18个虚拟机,共计72个GPU。里面住着72个Blackwell Ultra GPU,搭配36个Grace CPU。听起来就不明觉厉对不对?
- 网络层面, 它用的是下一代Quantum-X800 InfiniBand,实现了每GPU 800 Gb/s的跨机架横向扩展带宽,机架内130 TB/s的NVLink带宽。这速度,简直是数据在光速狂奔,告别一切卡顿延迟。
- 内存方面, 高达37TB的高速内存,彻底消除了内存和带宽瓶颈,让大模型和长上下文场景下的推理吞吐量大幅提升。
- 性能炸裂, 高达1,440 PFLOPS的FP4 Tensor Core性能,为AI智能体和多模态AI带来了前所未有的响应速度和扩展性。
- 散热黑科技, 独立的“散热器单元”配合设施级冷却方案,在保证高性能的同时,还能最大限度地减少水资源消耗,这操作,简直是细节控狂喜。
微软的这一系列神操作,不仅能帮助OpenAI极速“上分”,也再次彰显了其在AI基建领域的决心和实力。据悉,微软在威斯康星州斥资33亿美元建设的数据中心Fairwater,将作为一台大型AI超级计算机运行,部署数十万枚GB200 GPU,性能将达到目前全球最快超算的10倍,而且计划再投入40亿美元建设第二座同等规模的数据中心2。这波投资,真可谓ALL IN AI!
内部"宫斗剧":GPU到底怎么分,才能不“友尽”?
既然GPU这么金贵,OpenAI内部的分配机制自然也是重中之重。Greg Brockman在播客里吐槽,这个过程简直令人揪心且筋疲力尽。毕竟,算力驱动着整个团队的生产力,“此事干系重大”。
OpenAI内部建立了一套复杂的“GPU分配大法”:
- 高层决策: 由Sam Altman和Fidji Simo组成的领导团队,拍板决定研究团队和应用团队之间的总体算力大饼怎么切。
- 研究团队内部协调: 首席科学家和研究负责人,再细分研究团队的**“口粮”**。
- 运营层: 由Kevin Park领导的小型内部团队,负责GPU的具体调配和周转,像个**“调度大师”**,项目结束后,赶紧把硬件资源挪给新项目。
这套机制,说白了就是为了让有限的GPU资源,能够**“雨露均沾”(尽可能地),并且最大化效率**。但即便如此,大家对“我能否分到算力”这件事所投入的精力与情感强度,依然远超想象,毕竟,谁不想自己的**“孩子”(项目)能够快人一步**呢?
AI算力军备竞赛:谁能笑到最后,谁说了算?
OpenAI的GPU“饥渴症”并非个例。整个AI行业,都在上演一场史无前例的算力军备竞赛。Meta的扎克伯格也透露,他们正把“人均算力”打造成核心竞争优势1。这意味着,每个Meta员工能支配的算力,都可能比别人家的多,这简直是**“钞能力”的直接体现**!
OpenAI首席执行官Sam Altman更是语出惊人,表示OpenAI正在推出“算力密集型服务”,这让人不禁YY:当我们以当前模型的成本,将海量算力投入到有趣的新想法上时,能创造出怎样的可能性?
答案不言而喻:谁手握最多的算力,谁就能在AI竞赛中脱颖而出,一骑绝尘。微软和OpenAI的这次**“强强联手”,无疑为这场算力“大乱斗”又添了一把火。GB300巨兽的加入,不仅缓解了OpenAI的燃眉之急,更像是一枚重磅炸弹,预示着未来AI模型训练速度和规模将再次原地爆炸**。
所以,朋友们,这不仅仅是几块GPU的故事,更是AI世界格局重塑的前奏。在这场以算力为燃料的竞赛中,每个玩家都在拼尽全力,争夺“制高点”。至于谁能最终登顶,成为AI时代的真正**“王者”**?让我们拭目以待。