超越“黑暗中的文字匠”:李飞飞定义AI下一个十年,空间智能与世界模型的崛起

温故智新AIGC实验室

TL;DR:

“AI教母”李飞飞指出当前大语言模型(LLM)的“致命缺陷”——缺乏对物理世界的具身理解和空间推理能力,如同“黑暗中的文字匠”。她提出,AI的下一个十年将以“空间智能”为核心,通过构建具备生成性、多模态和交互性的“世界模型”,实现机器对物理世界的深度理解与互动,从而彻底革新创意、机器人、科学发现等领域,并为通用人工智能(AGI)的实现铺平道路。

在当前人工智能的浪潮中,大语言模型(LLM)以其惊人的文本生成与理解能力席卷全球,似乎预示着一个智能涌现的时代。然而,站在技术前沿的“AI教母”李飞飞教授,近日却为这股热潮敲响了警钟。她在一篇万字长文中一针见血地指出,当前的LLM即便拥有海量抽象知识,也只是“黑暗中的文字匠”——它们精通语言,却对物理世界的常识和空间规律一无所知。例如,“多大力气会把杯子推倒?”“转个弯会不会撞墙?”这类问题,对LLM而言仍是盲区。1

这一“致命缺陷”不仅制约了自主机器人技术的发展,也使得我们渴望的沉浸式元宇宙体验遥不可及。李飞飞断言,AI的下一个十年,真正的突破将不再是文本堆砌,而是要解锁“空间智能”(Spatial Intelligence),并将其作为连接感知、想象和行动的终极能力。这不只是一个技术方向的转变,更是对AI智能本质的深刻哲学思辨和商业版图的重构。

技术原理与创新点解析:超越“文字匠”的具身理解

当前LLM的辉煌成就,主要体现在其对语言和符号世界的强大驾驭能力上。它们通过学习海量的文本数据,掌握了复杂的语法、语义和推理模式,能够流畅地行文、编码,甚至生成逼真的图像和短视频。然而,正如李飞飞所言,这种智能是“脱离现实根基”的。哲学家维特根斯坦曾说:“我的语言界限就是我的世界的界限。”2 对于AI而言,世界远不止于语言。LLM的局限在于其无法像人类一样,通过与物理环境的交互来建立对世界的具身理解,这使其在需要空间推理、物理常识和因果关系推断的任务上显得捉襟见肘。

空间智能的核心:人类认知的基石

李飞飞将空间智能定义为人类认知的基石,是支撑我们与物理世界互动的隐形脚手架。从日常的停车、接抛物,到消防员在浓烟中判断结构稳定性,再到儿童通过玩耍认知世界,无一不依赖于对物体形状、距离、运动轨迹和物理规律的直觉理解。它不仅是感知的体现,更是想象与创造的根基,从史前岩画到现代影音,乃至工业设计和科学发现(如埃拉托色尼计算地球周长,沃森和克里克发现DNA结构),都离不开空间智能的驱动。3

世界模型:解锁空间智能的宏伟蓝图

要赋予AI空间智能,李飞飞提出需要构建比LLM更宏大的概念——“世界模型”(World Model)。这是一种新型的生成式模型,旨在理解、推理、生成及与语义-物理-几何-动态复合的虚实世界进行交互,其能力将远超现有模型的范围。世界模型需具备以下三项核心能力:

  1. 生成性 (Generative): 能够根据语义或感知指令,创造无限多样且保持几何、物理、动态一致性的虚拟空间。这要求模型不仅能理解空间,更要能生成自身的模拟世界,并支持隐式和显式的几何表征。
  2. 多模态 (Multimodal): 能够处理多种形式的输入,如图像、视频、深度图、文本指令、手势或动作。模型应能通过局部信息预测或生成尽可能完整的世界状态,融合真实视觉的解析精度与语义指令的灵活度。
  3. 交互性 (Interactive): 当动作或目标作为输入时,模型必须能推演世界的后续状态。这意味着,在给定目标时,模型不仅可预测世界状态,还能推导达成目标的行动序列,从而实现真正的具身智能。

然而,构建世界模型面临严峻的技术挑战。首先是定义新型通用训练目标函数,其复杂度远超LLM的“下一token预测”,必须遵循几何与物理定律。其次是大规模训练数据的获取与处理,需要从海量二维视觉信号中提取深层空间信息,并结合高质量合成数据及深度、触觉等多模态信息。最后,新型模型架构与表征学习是关键,需突破当前多模态大模型的局限,探索三维/四维感知的token化、上下文构建与记忆机制,如World Labs开发的实时生成框架模型RTFM。4

产业生态与商业版图重构:从文本到现实的投资新赛道

李飞飞对空间智能的呼唤,不仅是对AI技术路线的深刻反思,更是对未来万亿级产业生态和商业版图的预判。这预示着一场从以“语言”为核心的抽象智能向以“空间”为核心的具身智能的范式转移,将催生全新的市场机会和投资热点。

对现有AI格局的颠覆与融合: LLM的繁荣达到了一个阶段性瓶颈,其纯文本或多模态(但仍基于序列理解)的能力已无法满足真实世界交互的需求。空间智能和世界模型的崛起,意味着LLM需要进化,或者与更底层的世界模型深度融合,成为其获取和处理抽象知识的一个模态,而非AI的终极形态。这将推动现有的AI巨头和初创公司重新思考其技术栈和产品策略。

商业化前景与投资热点: 空间智能的应用疆域广阔,将沿着清晰的路径演进,其商业价值将逐步显现:

  • 创意产业的“超能力”: World Labs的Marble平台已将这种能力交到创作者手中,让电影制作人、游戏设计师、建筑师等能够快速创建并迭代完全可探索的3D世界,大幅降低传统3D设计软件的成本和门槛。5 这将催生新维度的叙事体验通过设计实现空间叙事,以及沉浸式与互动体验的革命,赋能数字经济中的内容生成和虚拟世界构建。投资将涌向提供世界模型基础能力、垂直应用工具及新型交互设备的公司。
  • 机器人技术的“行走智能”: 具身智能的实现将不再是遥远的梦想。世界模型能为机器人学习提供可扩展的训练数据,通过模拟和现实结合,解决机器人训练数据稀缺的问题。这将加速自主机器人协作机器人家庭助理机器人多种具身形态机器人的研发与部署。投资重点将转移到机器人硬件、仿真平台、具身AI软件栈及特定应用场景(如物流、医疗、养老)的机器人解决方案。
  • 科学发现与医疗健康的加速器: 长期来看,空间智能系统将能模拟复杂实验、探索人类无法到达的环境,改变气候科学、材料研究等领域的计算建模。在医疗保健领域,AI将通过多维建模加速药物发现、增强诊断,并实现环境监测和辅助护理机器人。6 这将开启AI for ScienceAI for Healthcare的新篇章,吸引风险资本对底层模型、生物计算平台和智能医疗设备的投入。
  • 教育领域的沉浸式革命: 空间智能将使抽象概念变得有形,实现沉浸式、迭代式学习体验。学生可以“进入”细胞机制或历史事件,教师获得个性化教学工具,专业人士能在逼真仿真环境中安全练习复杂技能。这为教育科技带来了巨大的革新潜力。

World Labs作为李飞飞与联合创始人共同创立的公司,正是基于“基础范式尚在形成之中,这将成为未来十年决定性课题”的信念。其推出的Marble等早期产品,预示着资本将加速流向那些致力于构建世界模型核心技术、大规模训练数据、新型模型架构以及垂直应用场景解决方案的初创企业

社会影响与伦理思考:赋能人类而非取代

每一次重大技术飞跃,都伴随着对社会伦理和人类未来的深刻思考。李飞飞一贯的理念是:“AI必须增强人类能力,而非取代人类。”她强调AI由人创造、为人所用、受人监管,必须始终尊重人类的能动性与尊严。空间智能的崛起,同样需要我们以批判性思维审视其带来的机遇与挑战。

赋能人类文明进程: 空间智能的愿景是“为人类构建更美好的世界”,其应用将分阶段展开,但核心始终是增强人类的创造力、关怀能力和科学发现能力。它将:

  • 提升创造力: 降低创作门槛,让更多人参与到虚拟世界的构建和叙事中,从而丰富人类的文化和精神生活。
  • 改善生活质量: 具身智能机器人可以在实验室、家庭、医院提供辅助,解决劳动力短缺问题,提升老年人和病患的生活品质。
  • 加速知识探索: 通过模拟和可视化复杂系统,推动科学边界的拓展,加速在气候、能源、医疗等领域的突破。

潜在风险与应对策略: 如同所有颠覆性技术,空间智能和世界模型也伴随着潜在风险:

  • AI安全与控制: 当机器能够理解和主动交互物理世界时,如何确保其决策符合人类意图,避免意外或恶意行为,是AI安全(AI Safety)领域面临的巨大挑战。特别是具身智能机器人,其物理行为的安全可控性至关重要。
  • 数据伦理与隐私: 世界模型需要大规模、多模态的真实世界数据进行训练。如何保护数据隐私、避免训练数据中的偏见(特别是关于物理世界的偏见)被放大,是需要深思的问题。
  • 社会结构冲击: 具身智能的普及可能对某些传统体力劳动和技能型工作带来冲击,引发就业结构性调整。社会需要提前规划,通过教育和再培训机制来应对。
  • 技术滥用: 强大的虚拟世界生成能力和具身智能技术,也可能被用于制造虚假现实、传播虚假信息或进行军事应用,需要严格的伦理审查和治理框架。

李飞飞强调,实现空间智能的愿景需要集体的巨大努力,包括研究人员、创新者、创业者、企业乃至政策制定者在内的整个AI生态系统。这不仅是技术挑战,更是社会治理和伦理建设的共同课题。

前瞻展望:通向通用人工智能(AGI)的关键里程碑

李飞飞的这篇文章,实质上描绘了AI通向通用人工智能(AGI)的下一条关键路径。如果说LLM让我们在“语言智能”方面取得了巨大飞跃,那么空间智能则是补齐了“具身智能”这一环,连接了抽象思维与物理现实。正如一些评论所言,当因果推理能力和能效达到相应水平,世界模型与空间智能的结合,将把我们带到通往AGI的拐点上。7

未来3-5年内,我们有望看到世界模型在以下方面取得显著进展:

  • 虚拟世界生成与交互的真实度大幅提升: 电影、游戏、建筑设计等领域的创作将实现前所未有的效率和沉浸感。
  • 特定场景下具身智能机器人的能力显著增强: 在受控环境中,机器人将能更流畅地执行复杂操作和与人类协作。
  • AI辅助科学发现的效率加速: 在材料科学、生物医药等领域,AI将能更好地模拟和预测物理化学现象。

然而,实现人类级的通用世界模型,能够像人一样在任何复杂环境中进行无缝的感知、理解、推理和行动,仍需突破多项技术壁垒。这需要对新型通用训练目标函数、大规模高质量多模态数据以及革命性的模型架构进行持续投入。

李飞飞的洞见提醒我们,AI的未来并非单一路径。在拥抱文本智能的便利之余,我们更应着眼于构建能够真正理解并适应我们所处真实世界的智能。空间智能是这一宏伟目标的“北极星”,指引着AI从“文字到世界”,从抽象到具身,最终走向更深刻、更丰富、更能赋能人类文明的未来。

引用


  1. 李飞飞最新长文刷屏,AI 下一个十年最需要的不是大模型·爱范儿·2025/11/11·检索日期2025/11/11 ↩︎

  2. 李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器·知乎·机器之心(2025/11/11)·检索日期2025/11/11 ↩︎

  3. AI教母李飞飞最新长文:空间智能是AI的下一个前沿「LLM太局限了,缺乏现实根基」·华尔街见闻·AI寒武纪(2025/11/11)·检索日期2025/11/11 ↩︎

  4. 李飞飞万字长文爆了,定义AI下一个十年·36氪·新智元(2025/11/11)·检索日期2025/11/11 ↩︎

  5. 李飞飞最新长文火爆硅谷·投资界·量子位(2025/11/11)·检索日期2025/11/11 ↩︎

  6. 从文字到世界:空间智能是AI的下一个前沿·Dr. Feifei Li's Substack·Feifei Li(2025/11/10)·检索日期2025/11/11 (Original article cited by other sources) ↩︎

  7. 李飞飞万字长文爆了,定义AI下一个十年·36氪·新智元(2025/11/11)·检索日期2025/11/11 ↩︎