TL;DR:
DeepMind CEO Demis Hassabis在最新访谈中揭示了通向通用人工智能(AGI)的深层路径,其核心在于“思考型模型”的演进和以Genie 3为代表的“世界模型”对物理世界的理解与创造能力。这不仅预示着下一代交互体验和AI训练范式,更触及了人工智能“参差型智能”的深层矛盾,指向一个融合多模态能力并能自我修正的“全能模型”未来,将深刻影响技术、商业乃至我们对现实的认知。
谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)近日在《Release Notes》播客节目中,为我们勾勒了一幅人工智能演进的宏伟蓝图。从AlphaGo到Deep Think斩获数学奥赛金牌,再到能生成与物理世界高度一致虚拟环境的Genie 3,DeepMind正以惊人的速度推进着“思考型模型”的边界,直指通用人工智能(AGI)的终极目标。这场深度对话不仅展现了尖端技术的迭代速度,更引发了关于AI本质、商业前景乃至现实本身意义的深层思辨。
技术原理与创新点解析:从“思考”到“世界”的构建
哈萨比斯指出,“思考型模型”(the thinking models)是通向通用人工智能(AGI)的必经之路。这类模型的核心价值在于其自我修正和优化推理过程的能力,而非简单地给出表面答案。这与DeepMind早期在游戏AI(如AlphaGo、AlphaZero)中探索的“基于智能体的系统”一脉相承,但如今已从单一领域扩展至强大的多模态范畴,能处理语言并整合其他信息。思考型模型通过叠加“思考”或“规划”能力,甚至实现并行规划,从而在数学、编程、科学及复杂游戏中展现出卓越的推理表现,例如Deep Think在AIME数学测试中已达到99.2%的成绩,接近人类专家水平[^2]。
然而,此次访谈的另一核心亮点是DeepMind在世界模型领域的突破,尤其是Genie 3。Genie 3不仅能生成与现实难辨的AI视频,更能创造出细致到流水与倒影都符合物理规律的虚拟世界。它的“惊人之处在于其生成世界的高度一致性——你转身离开,再回头,世界依然保持原样,这说明它的底层物理理解相当出色。”[^2] 这项技术汇集了多条研究路径,旨在构建一个能理解物理结构、材料特性、液体流动乃至生物和人类行为的通用世界模型。这种能力对于机器人技术至关重要,也是通用助理项目(如Project Astra)不可或缺的基础。Genie 3验证了世界模型的关键标准:不仅理解物理世界,还能基于此创造它,甚至模拟“假设性事件”(counterfactual scenarios),这被视为通往AGI的关键步骤[^4]。
产业生态与商业版图重塑:驱动未来智能体的基石
Genie 3的出现不仅仅是技术上的炫技,其商业和产业价值也极具潜力。从产业生态洞察的角度看,它扮演着未来AI训练和应用开发的“基石”角色:
- 无限的训练数据生成器:Genie 3能够将模拟智能体SIMA(Simulated Agent)置于其生成的虚拟世界中,创造出无限的、多样化的训练数据。这对于机器人训练和更广泛的AGI系统通用训练而言,无疑是突破性的,能够有效缓解传统真实数据获取的瓶颈。这种内部迭代训练机制,如同AI的“内部宇宙”,将加速智能体的自我演化。
- 互动娱乐的新范式:哈萨比斯预见Genie 3在互动娱乐领域拥有巨大潜力,或将催生一种介于电影与游戏之间的新型娱乐形式,甚至是他个人梦想中“史上最伟大的游戏”。这意味着Genie 3可能成为下一代游戏引擎的核心,允许用户创造、分享和体验彼此构建的虚拟世界,形成活跃的社区生态,重塑内容创作和消费模式。
- “模型到系统”的转变:访谈中强调了AI系统从“静态模型”向“动态系统”的转变,即模型在推理过程中能够主动调用外部工具(如搜索引擎、数学程序、编程环境)。这种“工具使用”能力与规划、思考能力的结合,将使AI的潜力呈指数级扩张。对开发者而言,这意味着未来构建应用的方式将被重塑,他们需要预判并为一年后的技术状态设计产品,同时底层引擎每隔数月就可能进行一次重大更新。这种快速迭代和对外部工具的依赖,将深刻改变软件工程的实践和整个网络生态的运作方式。
未来主义视角与深层哲学叩问:当AI开始“理解”现实
Genie 3的能力让人不禁联想到模拟理论的哲学探讨,即“这是模拟理论的证据吗?”当AI能生成高度一致、符合物理规律的虚拟宇宙时,我们对现实的本质将产生更深层的思考。哈萨比斯本人也坦言,这种能力促使他思考“现实世界的本质是什么?”这体现了Wired风格的哲学思辨深度,将技术进展置于更广阔的人文背景中审视。
DeepMind的终极目标是推出融合语言、多媒体、物理推理与生成能力的**“全能模型”(Omni Model)**。这不仅是技术能力的综合,更是对人类智能复杂性的深度模拟与超越,最终实现全面且一致的智能表现。这种对AGI的愿景,不再是单一领域的冠军,而是能理解并行动于真实世界的多面手。
前进的挑战与伦理考量:通向AGI的“参差”之路
尽管DeepMind取得了令人瞩目的进展,哈萨比斯也坦率地指出了当前AI的“参差型智能”悖论。一方面,系统能生成完整的虚拟世界;另一方面,却可能在简单的国际象棋中违规行棋,或在高中数学、基础逻辑上暴露弱点。这种缺乏一致性,正是当前系统距离完全AGI的关键一步。
“一个普通人不应该如此轻易就能发现系统的低级缺陷。… 这很可能是因为在推理、规划、记忆等方面,仍然缺少关键性的创新。”[^2]
解决这一问题,需要新的、更难、覆盖面更广的评测基准,用来考察模型的物理直觉、世界理解乃至安全性。DeepMind与Kaggle合作的“游戏竞技场”正是为此而生,它提供了一个干净、客观、难度可自动增加的测试环境,甚至允许AI自创新游戏进行对战学习,以避免数据泄露或过拟合,这体现了对AI安全可控性的前瞻性思考。
同时,关于能力内化与外部调用的决策,也构成了一个重要的技术挑战。虽然工具使用是AI系统的重要能力,但哪些能力应该直接内置于主模型,哪些应作为外部工具调用,是一个需要反复实践和验证的经验性问题。这关乎到AI系统架构的效率、通用性以及未来发展的方向。最终,AGI的安全落地,不仅需要技术的持续突破,更需要对这些复杂系统性问题的深入理解与巧妙解决。在通往“全能模型”的道路上,DeepMind不仅是在开发技术,更是在重塑我们对智能的理解和对未来的想象。