从“模拟世界”到“认知现实”：世界模型如何成为AGI的下一块拼图

TL;DR：

世界模型正从简单的视觉生成进化为理解物理因果的“认知中枢”，清华系创业矩阵通过“算法+仿真+交互”的三重路径，试图突破语言大模型的符号局限，构建通往通用人工智能（AGI）的物理底层逻辑。

走向物理的深处：为何语言已近瓶颈？

当我们审视近两年的技术变革，大语言模型（LLM）的成功本质上是一场对人类知识库的高维压缩。然而，正如清华系科研背景的创业者们所察觉的，这种“鹦鹉学舌”式的统计概率模型，在面对现实世界的复杂性时表现出了显著的结构性缺陷。

语言是对世界的描述，而非世界本身。LLM可以生成完美的食谱，却无法理解“打翻牛奶”背后的流体力学与重力常识。当AI试图从数字空间跨入物理实体，无论是自动驾驶的极端场景，还是人形机器人的复杂交互，对“物理规律”和“时空连续性”的缺失，成了阻碍其通往AGI的最大鸿沟。

走出象牙塔的“清华系”路径：多维解法

清华系创业者展现出的共同特质，是拒绝对单一技术路径的盲从。在世界模型的构建上，他们通过不同切面构建了完整的技术生态闭环：

认知驱动（智谱AI）：通过“认知图谱+大模型”的路径，试图赋予模型结构化的推理空间，将App操作、行程规划等微观任务视为对环境逻辑的深度解构，核心在于建立长程、稳定的因果逻辑记忆。
物理仿真与视觉引擎（生数科技）：将视频生成视为“时间维度的世界模拟”，利用U-ViT架构在大规模视觉数据中训练模型对物理定律的直觉，让AI在脑海中完成“抛物线”等物理推演，实现对常识的图形化重现。
强化学习与量产进化（Momenta）：曹旭东团队通过“长期记忆”与“短期记忆”的创新架构，实现了从感知到决策的端到端进化。Momenta将自动驾驶视为物理AI的练兵场，通过量产车的闭环数据，让世界模型在虚拟练兵场中反复博弈，从而跨越了Sim-to-Real（仿真到现实）的鸿沟¹²³。

商业版图的重构：从插件到操作系统

世界模型不仅是技术范式的切换，更是商业竞争逻辑的迁移。过去，互联网经济追求的是流量与交互频率，而在世界模型时代，“有效反馈数据”与“模拟计算力”成为新的货币。

智谱AI、生数科技与Momenta的布局表明，真正的壁垒在于能否将下游应用任务（如自动驾驶的避障、Agent的执行）汇聚到统一的架构中，实现“边运行、边进化”。正如Momenta R7通过强化学习实现的量产首发，物理AI的商业价值不在于生成一个虚构的世界，而在于在真实世界的长尾场景中，提供超越人类的预测与决策能力¹。

未来三到五年的演进：幻觉与突破

虽然“物体穿模”等物理幻觉依然存在，但我们正处于从“文本大模型”向“交互世界模型”跨越的临界点。未来三年的演进路径将遵循以下逻辑：

统一架构化：目前各家模型在视觉、语言、机器人控制上仍有割裂，未来会出现统一的Token空间，将视觉、触觉、传感器数据深度融合。
推理成本优化：随着计算效率提升，类似Momenta“双支路”存储记忆的方案，将使千亿参数级别模型具备在端侧运行的能力。
范式转变：AI将从“预测下一个字符”转向“预测下一个物理状态”，这不仅是对生产效率的提升，更是人类文明在数字化进程中首次具备了“预演现实”的权力。

这种转变，注定充满争议与挑战。如何确保AI在理解物理世界的过程中，始终维持人类伦理的边界，将成为后续技术治理的重要议题。

引用

Momenta曹旭东：世界模型与强化学习，构成物理AI两大核心支柱·新华网·2026/04/26·检索日期2026/06/24 ↩︎ ↩︎
Momenta智驾大模型，不仅仅是“端到端”·界面新闻·李如嘉·2024/07/31·检索日期2026/06/24 ↩︎
全球领先的物理AI公司·Momenta·2026/06/24·检索日期2026/06/24 ↩︎