李飞飞“搞事情”！一块H100就能“搓”出3D永恒世界，这波操作有点“神”！

TL;DR：

李飞飞团队这次又“放大招”了！他们发布了一个叫RTFM的“世界模型”，只需一块H100 GPU就能实时生成、还能“永生”的3D虚拟世界。最炸裂的是，它不靠传统建模，而是让AI自己“脑补”出来，简直是AI界的“玄学大师”！有网友已经开始“瑟瑟发抖”，怀疑我们是不是也在某个H100上跑着呢？

这两天，科技圈的头条简直被一个名字“霸屏”了：李飞飞。这位AI界的“女神级”人物，带着她的World Labs团队，又扔下了一颗重磅炸弹——全新实时生成式世界模型RTFM（Real-Time Frame Model，实时帧模型）正式亮相！

这可不是普通的AI绘画，也不是简单的视频生成。RTFM这货，能让你用区区一块H100 GPU，就实时“搓”出一个持久且3D一致的虚拟世界。无论是你脑海里的奇妙空间，还是现实世界的某个角落，它都能给你“变”出来，而且还能跟你互动，永不消失。有没有一种《头号玩家》的既视感？

前谷歌高级工程师直接“盖章”：RTFM真正解决了长期困扰世界模型可扩展性的问题。甚至有网友戏称，这技术牛到让人忍不住想问一句：

“咱这世界，是不是也在单个H100上运行的？”（咱就是说，这脑洞开得有点大啊！）

目前，RTFM已经开放研究预览版，传送门都给你备好了：https://rtfm.worldlabs.ai/ ¹ 各位“探索家”赶紧去体验一下，看看这“永恒世界”到底有多香！

告别“算力怪兽”：一块H100也能“开天辟地”？

要说世界模型，那简直是AI界的“吞金兽”，哦不，是**“算力吞噬者”**！我们都憧憬着那种能实时重建、生成、模拟的持久、可交互的虚拟世界，想象一下它能给影视、游戏、机器人带来多大的变革！

但问题是，这玩意儿的算力需求，那叫一个天文数字！如果你简单粗暴地把现有视频架构搬过来，想以60fps的帧率搞个4K交互式视频流，每秒要生成超过10万个token，这差不多是《哈利·波特》第一部的长度了！要是想维持一小时的互动，那上下文窗口就得处理超过1亿个token。

“这在今天的计算基础设施上，既不现实，也不经济划算啊！”（钱包君表示压力山大！）

李飞飞团队深谙AI领域的**“苦涩教训”**（The Bitter Lesson）：那些能随着算力增长而平滑扩展的简单方法，往往才是最终的赢家。他们坚信，未来的算力成本会持续下降，而生成式世界模型正可以从中获得巨大优势。

于是，一个核心目标浮出水面：设计一个足够高效、现在就能用、未来还能无限扩展的生成式世界模型。说白了，就是要在**“螺蛳壳里做道场”**——用一块H100 GPU，实现实时交互和永恒持久！这简直是把未来科技“快进”到我们眼前！

“学霸”AI的魔法：不建模也能“画”出大千世界！

传统的3D图形管线怎么玩？建个三角网格、搞点高斯溅射，用这些“显式三维表征”来建模，再通过渲染生成2D图像。简单说，就是先有“骨架”，再“画皮”。这些方法虽然是计算机图形学的“老江湖”，但面对海量数据和算力增长，扩展起来就有点**“力不从心”**了。

而RTFM呢？它直接**“另辟蹊径”**！它不搞那些复杂的3D骨架，而是直接基于生成式视频建模的最新成果，训练一个单一的神经网络。你给它一两张2D图，它就能从新的视角给你生成同一场景的2D图！

“你没听错，它就是那个‘学会了渲染的AI’！”（学霸连渲染技能都自己搞定了，简直不给传统图形学活路啊！）

RTFM本质上是一个在帧序列上运行的自回归扩散Transformer。它通过“沉浸式”观看海量视频数据进行端到端训练，学会了预测下一帧。你可以把RTFM看作一个**“学习型渲染器”**：输入帧变成神经网络的“激活值”（KV缓存），隐式地代表了整个世界；需要新帧时，网络通过注意力机制从这个“世界表征”里“读取信息”，然后“画”出新的视图。

最让人“拍案叫绝”的是，RTFM仅仅通过观察，就学会了模拟3D几何、反射、阴影这些复杂的物理现象。它甚至能利用几张稀疏的照片，就**“脑补”**出真实的3D地点！这种能力，简直是模糊了重建（现有视图之间插值）和生成（创造新内容）的界限，让AI变成了一个真正的“世界创造者”。

“赛博永生”不是梦：你的世界永不掉线！

真实世界有个“铁律”：持久性。你走开，世界不会消失；你回来，它还在那儿。这对于自回归帧模型来说，一直是个**“老大难”**问题。

为啥呢？因为世界是隐式地通过2D图像帧来表达的，要实现持久性，模型就得记住越来越多的帧，推理成本也越来越高。时间一长，模型的记忆就会因为算力限制而“掉线”。

RTFM怎么解决这个“记忆力”挑战的？它给每个帧都安上了一个在3D空间中的**“位姿”**（位置和方向）。这样，模型对世界的记忆（也就是那些带位姿的帧）就有了空间结构，就像给记忆打上了“空间标签”。

他们还发明了一个**“上下文调度”**（context juggling）的神奇技术。当你在这个世界的不同区域“溜达”时，模型会智能地从带位姿的帧记忆中检索附近的帧，形成一个量身定制的上下文。

“说白了，就是AI的‘空间导航系统’和‘记忆管理大师’，让它在广阔的世界里也能高效地保持几何形状的持久性！”（妈妈再也不用担心我的世界会‘卡顿’或者‘消失’了！）

这种“上下文调度”技术，让RTFM实现了无限的持久性。这意味着，你可以在RTFM创造的世界里“胡作非为”，它将永不消逝，永远在那里等你，是不是有点**“赛博永生”**那味儿了？

展望未来：这波AI浪潮，我们都“在劫难逃”！

李飞飞团队的RTFM，无疑是将“未来世界模型”的雏形，提前带到了我们眼前。它不仅用一块H100 GPU证明了实时、持久的3D世界生成是可行的，更为“将世界模型视为从数据中端到端学习的渲染器”这一理念，指明了一条康庄大道。

未来，RTFM还有很多可以“搞事情”的方向。比如，让它能模拟动态世界，甚至允许用户与生成的世界进行**“深度互动”。随着算力的不断提升，我们有理由相信，更大规模的RTFM模型，将会带来更多“炸裂”**的性能提升。

总之，这场由RTFM引领的AI浪潮，已经悄然来袭。我们都将成为这场变革的见证者，甚至参与者。准备好了吗？一起**“冲浪”**吧！

引用

World Labs · 李飞飞全新「世界模型」问世，单张H100实时生成3D永恒世界（2025/10/17）·检索日期2025/10/17 ↩︎