炸裂!谷歌Genie 3横空出世,OpenAI风头惨遭截胡?世界模型这回真要「起飞」了!

温故智新AIGC实验室

TL;DR:

昨晚谷歌DeepMind突然“发大招”,Genie 3世界模型就像平地一声雷,瞬间炸出了个可交互的虚拟宇宙。不仅画质“能打”,还能实时响应你的“骚操作”,连OpenAI最近的动静都被它抢了风头,真是人狠话不多

昨晚十点,正当大家翘首以盼OpenAI的下一个“王炸”时,谷歌DeepMind突然甩出了一个重磅炸弹——Genie世界模型的第三代,Genie 3!这操作,简直是**“螳螂捕蝉,黄雀在后”,直接把科技圈的目光从OpenAI身上给“硬生生拽走”**了。

王炸登场:一个提示词,造个“元宇宙”给你玩?

官方是这么说的:Genie 3,是他们**“突破性”的世界模型,只要一个文本提示词,就能“凭空变出”一个可交互、可玩耍的环境。从“照片级真实”的山川大海,到“脑洞大开”的奇幻世界,“想啥有啥”,简直是把你的想象力直接“搬进了”**数字世界1

这不就是妥妥的**“文本到世界生成”吗?听起来有点像《西部世界》里的世界构造,或者《我的世界》的终极AI版。而且,Genie 3可不是那种“傻站着”的背景板,它生成的世界是动态的**,玩家能以每秒24帧的速度,在720p分辨率下**“实时漫游”,而且还能保持几分钟的“画面一致性”**。这可不是小打小闹,这意味着你走过的地方,回过头来还在那儿,不会突然“消失”或者“变异”,这细节,就问你怕不怕?

硬核对比:Genie 3凭啥“艳压群芳”?

可能有人会问,这不就是个**“视频生成器”吗?No, no, no!Genie 3可不是那些“小打小闹”的视频生成模型,它的对手是“星辰大海”**!

  • 对比前任Genie 2:那简直是**“天壤之别”。Genie 3分辨率直接“起飞”,达到了“实际可用”的程度。而且,它还能用提示词生成“世界事件”,比如“下雨了”、“来辆车”,简直是给你的虚拟世界“加戏”。最关键的是,它“实时响应”**,你动一下,世界立刻给你反馈,不像有些模型,生成个画面还得等半天,急死个人!

  • 对比游戏生成引擎GameNGen:Genie 3更通用,GameNGen专注游戏,但Genie 3在分辨率等指标上**“碾压式胜出”**。简单来说,Genie 3是“全能型选手”,GameNGen是“单项冠军”,高下立判。

  • 对比视频生成模型Veo 3:虽然在分辨率上Genie 3还有点**“小遗憾”,但其他方面,Genie 3“遥遥领先”。毕竟,Veo 3更多是生成视频片段,而Genie 3生成的是一个“活生生的”**可交互世界。

最炸裂的,是团队成员Matt McGill分享的那个**“低头看鞋子、看模型是否理解水坑”的视频,那真实感,简直让人怀疑人生!网友们纷纷表示“震撼全家”“AI这是要上天了!”**

技术揭秘:这份“涌现能力”到底是个啥?

别看Genie 3这么牛,它本质上还是个**“二维的图像/视频生成模型”,而不是直接生成三维场景。那它是怎么做到长达数分钟的“画面一致性”“实时交互”的呢?DeepMind给出了答案:这是一种“涌现能力(emergent capability)”**。

简单来说,就是Genie 3不是一次性把整个世界都“画”出来,而是**“逐帧生成”,就像我们玩游戏一样,你走到哪里,它就给你渲染到哪里。在每一帧的生成过程中,它都得“回忆”你之前走过的路,看过的风景,甚至一分钟前的画面状态**,确保你回过头去,那棵树还在原来的位置,而不是突然变成了一头猪(当然,你提示词要求变猪除外)。这种**“视觉记忆能力”,让它在数分钟内都能保持“高度一致性”,简直是“逼死强迫症”**的存在!

而这和NeRF、Gaussian Splatting那些基于三维模型的方法又不同。那些方法虽然也能生成一致性三维环境,但需要三维数据作为输入,这就限制了场景的**“丰富性”。Genie 3这种“涌现”的魔力,让它能生成更“丰富、动态、变化多端”的世界,有点“四两拨千斤”**的意思。

除了导航,Genie 3还支持**“可提示的世界事件”。意思就是,你不仅能“亲身体验”这个世界,还能“当上帝”,用文本命令直接改变世界,比如:“让天上下起意面!”“给我变出个哥斯拉!”。这种能力,不仅增加了“反事实”的广度,让玩家“玩得更野”,也给训练智能体提供了“更多可能性”**。

坦白局:神仙模型也有“小瑕疵”

虽然Genie 3是妥妥的“前所未有”,但 DeepMind 也挺**“实在”,直接亮出了它的“局限性”。毕竟,“金无足赤,人无完人”**嘛:

  • 动作空间有限:虽然能通过提示词改变世界,但agent自身能执行的动作范围还比较小,“手脚还没完全放开”
  • 多agent互动难:在同一个环境里模拟多个独立agent的复杂互动,目前还是个**“世界级难题”**。
  • 真实世界位置不准:想用它完美模拟你家小区?“暂时还不行”,地理精度还有待提高。
  • 文本渲染:除非输入时就指定,否则生成的文字可能**“糊成一锅粥”**,认不出。
  • 交互时间有限:目前只能支持几分钟的连续交互,想**“沉浸几个小时”**?再等等。

未来可期:人类离“全息甲板”还有多远?

DeepMind在博客里透露,Genie 3的发布,是**“世界模型的重要时刻”,未来将对AI研究和生成式媒体产生深远影响。他们甚至在考虑未来如何让更多人能“上手体验”**Genie 3。

想象一下,Genie 3未来能给你**“复刻”古希腊的街道,让你“梦回”历史现场,这不就是活生生的“沉浸式教育”吗?而且,它还能为机器人和自主系统提供“无限大的训练场”,让那些具身智能体“在虚拟世界里摸爬滚打”,快速成长。比如,DeepMind就把SIMA智能体放进Genie 3世界里训练,让它在不知道目标的情况下,模拟世界响应,这对于构建“更强大、更聪明”**的具身智能体至关重要。

从2018年的GQN,到今天的Genie 3,世界模型,或者DeepMind研究副总裁Oriol Vinyals口中的**“神经视频游戏”,简直是“芝麻开花节节高”。DeepMind CEO、诺奖得主Demis Hassabis更是放出豪言,说他们正在“打造《星际迷航》中的全息甲板”**。

这…这不就是我们小时候做梦都想有的**“万能游戏机”吗?看来,未来我们不仅能“冲浪元宇宙”,还能“造个元宇宙给自己玩”**了!

对于Genie 3这个世界模型,你有什么看法?欢迎**“评论区炸裂”**!


引用


  1. 震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头·机器之心·冷猫、Panda(2025/8/6)·检索日期2025/8/6 ↩︎