TL;DR:
李飞飞团队这次又“放大招”了!他们发布了一个叫RTFM的“世界模型”,只需一块H100 GPU就能实时生成、还能“永生”的3D虚拟世界。最炸裂的是,它不靠传统建模,而是让AI自己“脑补”出来,简直是AI界的“玄学大师”!有网友已经开始“瑟瑟发抖”,怀疑我们是不是也在某个H100上跑着呢?
这两天,科技圈的头条简直被一个名字“霸屏”了:李飞飞。这位AI界的“女神级”人物,带着她的World Labs团队,又扔下了一颗重磅炸弹——全新实时生成式世界模型RTFM(Real-Time Frame Model,实时帧模型)正式亮相!
这可不是普通的AI绘画,也不是简单的视频生成。RTFM这货,能让你用区区一块H100 GPU,就实时“搓”出一个持久且3D一致的虚拟世界。无论是你脑海里的奇妙空间,还是现实世界的某个角落,它都能给你“变”出来,而且还能跟你互动,永不消失。有没有一种《头号玩家》的既视感?
前谷歌高级工程师直接“盖章”:RTFM真正解决了长期困扰世界模型可扩展性的问题。甚至有网友戏称,这技术牛到让人忍不住想问一句:
“咱这世界,是不是也在单个H100上运行的?”(咱就是说,这脑洞开得有点大啊!)
目前,RTFM已经开放研究预览版,传送门都给你备好了:https://rtfm.worldlabs.ai/ 1 各位“探索家”赶紧去体验一下,看看这“永恒世界”到底有多香!
告别“算力怪兽”:一块H100也能“开天辟地”?
要说世界模型,那简直是AI界的“吞金兽”,哦不,是**“算力吞噬者”**!我们都憧憬着那种能实时重建、生成、模拟的持久、可交互的虚拟世界,想象一下它能给影视、游戏、机器人带来多大的变革!
但问题是,这玩意儿的算力需求,那叫一个天文数字!如果你简单粗暴地把现有视频架构搬过来,想以60fps的帧率搞个4K交互式视频流,每秒要生成超过10万个token,这差不多是《哈利·波特》第一部的长度了!要是想维持一小时的互动,那上下文窗口就得处理超过1亿个token。
“这在今天的计算基础设施上,既不现实,也不经济划算啊!”(钱包君表示压力山大!)
李飞飞团队深谙AI领域的**“苦涩教训”**(The Bitter Lesson):那些能随着算力增长而平滑扩展的简单方法,往往才是最终的赢家。他们坚信,未来的算力成本会持续下降,而生成式世界模型正可以从中获得巨大优势。
于是,一个核心目标浮出水面:设计一个足够高效、现在就能用、未来还能无限扩展的生成式世界模型。说白了,就是要在**“螺蛳壳里做道场”**——用一块H100 GPU,实现实时交互和永恒持久!这简直是把未来科技“快进”到我们眼前!
“学霸”AI的魔法:不建模也能“画”出大千世界!
传统的3D图形管线怎么玩?建个三角网格、搞点高斯溅射,用这些“显式三维表征”来建模,再通过渲染生成2D图像。简单说,就是先有“骨架”,再“画皮”。这些方法虽然是计算机图形学的“老江湖”,但面对海量数据和算力增长,扩展起来就有点**“力不从心”**了。
而RTFM呢?它直接**“另辟蹊径”**!它不搞那些复杂的3D骨架,而是直接基于生成式视频建模的最新成果,训练一个单一的神经网络。你给它一两张2D图,它就能从新的视角给你生成同一场景的2D图!
“你没听错,它就是那个‘学会了渲染的AI’!”(学霸连渲染技能都自己搞定了,简直不给传统图形学活路啊!)
RTFM本质上是一个在帧序列上运行的自回归扩散Transformer。它通过“沉浸式”观看海量视频数据进行端到端训练,学会了预测下一帧。你可以把RTFM看作一个**“学习型渲染器”**:输入帧变成神经网络的“激活值”(KV缓存),隐式地代表了整个世界;需要新帧时,网络通过注意力机制从这个“世界表征”里“读取信息”,然后“画”出新的视图。
最让人“拍案叫绝”的是,RTFM仅仅通过观察,就学会了模拟3D几何、反射、阴影这些复杂的物理现象。它甚至能利用几张稀疏的照片,就**“脑补”**出真实的3D地点!这种能力,简直是模糊了重建(现有视图之间插值)和生成(创造新内容)的界限,让AI变成了一个真正的“世界创造者”。
“赛博永生”不是梦:你的世界永不掉线!
真实世界有个“铁律”:持久性。你走开,世界不会消失;你回来,它还在那儿。这对于自回归帧模型来说,一直是个**“老大难”**问题。
为啥呢?因为世界是隐式地通过2D图像帧来表达的,要实现持久性,模型就得记住越来越多的帧,推理成本也越来越高。时间一长,模型的记忆就会因为算力限制而“掉线”。
RTFM怎么解决这个“记忆力”挑战的?它给每个帧都安上了一个在3D空间中的**“位姿”**(位置和方向)。这样,模型对世界的记忆(也就是那些带位姿的帧)就有了空间结构,就像给记忆打上了“空间标签”。
他们还发明了一个**“上下文调度”**(context juggling)的神奇技术。当你在这个世界的不同区域“溜达”时,模型会智能地从带位姿的帧记忆中检索附近的帧,形成一个量身定制的上下文。
“说白了,就是AI的‘空间导航系统’和‘记忆管理大师’,让它在广阔的世界里也能高效地保持几何形状的持久性!”(妈妈再也不用担心我的世界会‘卡顿’或者‘消失’了!)
这种“上下文调度”技术,让RTFM实现了无限的持久性。这意味着,你可以在RTFM创造的世界里“胡作非为”,它将永不消逝,永远在那里等你,是不是有点**“赛博永生”**那味儿了?
展望未来:这波AI浪潮,我们都“在劫难逃”!
李飞飞团队的RTFM,无疑是将“未来世界模型”的雏形,提前带到了我们眼前。它不仅用一块H100 GPU证明了实时、持久的3D世界生成是可行的,更为“将世界模型视为从数据中端到端学习的渲染器”这一理念,指明了一条康庄大道。
未来,RTFM还有很多可以“搞事情”的方向。比如,让它能模拟动态世界,甚至允许用户与生成的世界进行**“深度互动”。随着算力的不断提升,我们有理由相信,更大规模的RTFM模型,将会带来更多“炸裂”**的性能提升。
总之,这场由RTFM引领的AI浪潮,已经悄然来袭。我们都将成为这场变革的见证者,甚至参与者。准备好了吗?一起**“冲浪”**吧!
引用
-
World Labs · 李飞飞全新「世界模型」问世,单张H100实时生成3D永恒世界(2025/10/17)·检索日期2025/10/17 ↩︎