TL;DR:
图灵奖得主Yann LeCun公开宣称大语言模型(LLM)是通往人类智能的“死胡同”,并转向“世界模型”这一具身智能方向。这与OpenAI前首席科学家Ilya Sutskever对“纯粹堆算力”时代的终结论调不谋而合,共同预示着AI领域正从单一的语言理解,迈向对物理世界更深层次的建模、预测与行动能力,以及对安全可控超智能的探索。
2025年11月,人工智能领域迎来了一系列震撼性的事件,如同潮汐的转折点。图灵奖得主、深度学习三巨头之一Yann LeCun宣布从Meta离职,创办一家专注于Advanced Machine Intelligence(AMI)的新公司,将研究重心明确投向了被他称为通往人类智能“死胡同”的大语言模型(LLM)之外的路径——世界模型。几乎同时,OpenAI前首席科学家Ilya Sutskever也公开指出“Just Add GPUs(拼算力)”的时代已然终结。两位AI先驱不约而同地对主流路线发出质疑,这不仅仅是个人选择,更是一个时代的信号:后LLM时代,正以全新的范式和竞赛规则,加速成形。
技术路线分歧:大模型为何走向“死胡同”?
LeCun对LLM的批判并非一时兴起,而是基于对智能本质的深刻理解。他系统性地剖析了当前大模型的固有局限:
- 理解与规模的脱节:LLM在语言流畅度上表现卓越,但这种流畅源于对统计相关性的海量堆叠,而非对世界规律的真正理解。它们缺乏常识、因果关系,无法理解物理世界的运行机制。Meta的Llama 4在真实场景中表现不及预期,印证了“语言流畅度提升,世界理解力未跟上”的论断。模型规模的持续扩大,并未带来等比例的真实智能飞跃,反而使得边际收益递减,算力成本指数上涨,而理解力的天花板却在实验室中悄然显现。1
- 语言作为副产品而非核心:LeCun的核心观点直指智能的本质:
语言是人类智能的副产品,不是核心机制。 他认为,真正的智能来源于对物理世界的建模、预测和行动。LLM擅长处理语言中的规律,却无法理解“杯子为什么不会穿过桌子”这样的基本物理常识。它们能够“说话”,却不能“理解”和“行动”。
- 规划与行动能力的缺失:LLM在多步骤推理、长期规划和具身交互(Embodied Interaction)中的能力骤降。LeCun举例:一个青少年20小时就能学会开车,而我们至今没有L5级自动驾驶;一个孩子能清理餐桌,而我们缺乏能做家务的机器人。这鲜明对比揭示了LLM的软肋:它们在对话中显得聪明,但在真实世界中却举步维艰。智能不只是说话的能力,更是行动的能力。
LeCun的洞察并非否定大模型本身,而是批判“预测语言”这条单一路径。他坚信,要想让AI真正具备理解、推理与行动能力,必须转换一套全新的架构。
世界模型:通往具身智能的全新架构
如果语言模型无法理解世界,那么真正的智能该如何构建?LeCun的答案是:让AI学会“看世界”,构建_世界模型_。这种能力,人类婴儿和动物通过观察、互动自然习得,而非通过语言指令。
-
何为世界模型? 不同于LLM预测有限的离散词汇,世界模型的目标是让AI从高维、连续、混沌的多模态感官流(如视频、图像、传感器数据)中,构建出对世界的抽象内部投影。婴儿通过摔东西理解重力,猫通过跳跃理解空间与惯性——这些都无需语言,而是通过实践建立了直觉模型。LLM缺乏的正是这种世界的内部表征。
-
JEPA:一种全新的学习范式 LeCun正在AMI推动的核心路径是Joint Embedding Predictive Architecture(JEPA)。JEPA与LLM在多个层面存在根本差异:
- 输入形式:JEPA处理多模态数据,而非单一语言token。
- 学习目标:预测抽象状态的变化,而非下一个词。
- 学习方式:结合表征学习与因果建模,而非离散序列建模。
- 核心优势:天然具备规划和执行接口,弥补了LLM在行动能力上的不足。
“用LLM去理解真实世界,就像用听说来教人开车。你可以背下所有交规,但永远学不会真正驾驶。” LeCun的比喻深刻揭示了语言与物理世界理解之间的鸿沟。JEPA旨在通过模拟类似动物的学习模式,让AI在模拟环境中自主互动,提取因果关系,形成记忆,最终具备规划和行动能力。它不再依赖更多token,而是依赖更好的世界模型。
后LLM时代的双轨演进:架构创新与安全超智能
在质疑LLM这条路上,LeCun并非孤身一人。Ilya Sutskever也认为“缩放时代已经结束”,下一代智能需要新的架构基础。然而,两位先驱给出的答案却呈现出不同的侧重点:
- LeCun押注世界模型:他聚焦于AI如何获得对物理世界的理解和行动能力,通过自监督学习、表征建模、因果预测,构建真正能“看”和“理解”世界的系统,并预测10年内具身AGI原型可能出现。
- Sutskever押注安全超智能(SSI):他关注AI系统的泛化脆弱性和可控性。他认为,当前AI系统在基准测试中表现出色,但在真实场景中容易出错,这种脆弱性在大规模部署时风险极高。他创立SSI公司,旨在确保AI能力提升的同时,其行为是安全可控的。
一言以蔽之:LeCun致力于教AI理解世界和行动,Sutskever则致力于让AI在变强的过程中保持可控。这种分歧源于他们对AGI核心问题的不同关切——一个着眼于架构创新以实现有效泛化和现实行动,另一个则强调安全优先以避免潜在风险。这标志着AI领域的竞争,正从单纯的模型规模和数据量,转向了新架构的发明与强大且可控系统的构建。
产业转向的信号与战略布局
当顶尖科学家发出转向信号,工业界的响应也清晰可见。虽然LLM仍是当前主流,但下一代AI的布局已然展开:
- OpenAI的硬件野心:与苹果前首席设计师Jony Ive合作,开发无屏幕AI硬件原型,目标在2年内发布,旨在彻底改变人机交互方式。这表明OpenAI不仅关注软件,更将目光投向了AI与物理世界的融合。2
- Google的机器人愿景:发布Gemini 3 Pro的同时,挖来波士顿动力前CTO Aaron Saunders,推动Gemini成为通用机器人控制平台,旨在让单一模型适配多样化机器人,实现“开箱即用”的具身智能。
- 生成式世界模型平台崛起:李飞飞的World Labs在融资2.3亿美元后,发布了首个商业产品Marble,一个生成式世界模型平台,预示着模拟环境与世界模型结合的商业化路径。
- 具身智能热潮:Figure AI估值高达390亿美元,特斯拉Optimus计划2026年量产。这些都指向一个明确的共识:下一代AI将不再只存在于对话框中,而是将深入物理世界,实现具身化。
这些工业界的悄然转向,表明了对未来AI形态的共同探索——从数字世界走向物理世界。无论是LeCun的世界模型还是Sutskever的安全超智能,都是长线投入,需要数年乃至十年的积累。这意味着,短期内LLM仍将是主流应用的基础,但长期的技术制高点,将由率先在_新架构_上取得突破者掌控。
长期主义的竞赛:对创业者与开发者的启示
LeCun的转向,为AI领域的创业者和开发者传递了几个关键信号:
- 突破规模迷信:更大的模型不等于更好的智能。架构创新的空间巨大,是实现智能跃迁的关键。
- 垂直场景机遇:世界模型和具身智能最先落地的领域,很可能不是通用AGI,而是机器人、自动驾驶、工业控制等需要与物理世界深度交互的垂直场景。这为具备特定领域知识和工程能力的小团队提供了巨大机会。
- 开源持续赋能:LeCun一直是开源的坚定支持者,其新公司AMI也将延续这一路线。这意味着开源社区将在新范式的探索中继续发挥重要作用,降低创新门槛。
- 拥抱长期主义:这是一场需要耐心和远见的马拉松。投资和研发回报可能不会立竿见影,但却是未来十年乃至更长时间内,塑造AI未来最重要的方向。
正如LeCun所言:“真正的智能不在语言表面,而在对世界的深层理解。” 这并非对LLM的彻底否定,而是对AGI未来更宏大、更深远的想象。大模型已经证明了规模的力量,但**下一步的突破,可能来自完全不同的架构,将AI从语言的囚笼中解放,带入能够理解世界、执行任务的真实物理空间。**这条通往真正智能的道路,探索才刚刚开始。
引用
-
图灵奖得主 Yann LeCun:大模型是“死胡同”,下一步押在哪一条路? · AI 深度研究员 · AI深度研究员(2025/11/28)· 检索日期2025/11/28 ↩︎
-
OpenAI cofounder Ilya Sutskever says the scaling AI age is over. It’s now the age of research · Business Insider · 不可用(2025/11)· 检索日期2025/11/28 ↩︎