TL;DR:
世界模型正从简单的视觉生成进化为理解物理因果的“认知中枢”,清华系创业矩阵通过“算法+仿真+交互”的三重路径,试图突破语言大模型的符号局限,构建通往通用人工智能(AGI)的物理底层逻辑。
走向物理的深处:为何语言已近瓶颈?
当我们审视近两年的技术变革,大语言模型(LLM)的成功本质上是一场对人类知识库的高维压缩。然而,正如清华系科研背景的创业者们所察觉的,这种“鹦鹉学舌”式的统计概率模型,在面对现实世界的复杂性时表现出了显著的结构性缺陷。
语言是对世界的描述,而非世界本身。LLM可以生成完美的食谱,却无法理解“打翻牛奶”背后的流体力学与重力常识。当AI试图从数字空间跨入物理实体,无论是自动驾驶的极端场景,还是人形机器人的复杂交互,对“物理规律”和“时空连续性”的缺失,成了阻碍其通往AGI的最大鸿沟。
走出象牙塔的“清华系”路径:多维解法
清华系创业者展现出的共同特质,是拒绝对单一技术路径的盲从。在世界模型的构建上,他们通过不同切面构建了完整的技术生态闭环:
- 认知驱动(智谱AI):通过“认知图谱+大模型”的路径,试图赋予模型结构化的推理空间,将App操作、行程规划等微观任务视为对环境逻辑的深度解构,核心在于建立长程、稳定的因果逻辑记忆。
- 物理仿真与视觉引擎(生数科技):将视频生成视为“时间维度的世界模拟”,利用U-ViT架构在大规模视觉数据中训练模型对物理定律的直觉,让AI在脑海中完成“抛物线”等物理推演,实现对常识的图形化重现。
- 强化学习与量产进化(Momenta):曹旭东团队通过“长期记忆”与“短期记忆”的创新架构,实现了从感知到决策的端到端进化。Momenta将自动驾驶视为物理AI的练兵场,通过量产车的闭环数据,让世界模型在虚拟练兵场中反复博弈,从而跨越了Sim-to-Real(仿真到现实)的鸿沟123。
商业版图的重构:从插件到操作系统
世界模型不仅是技术范式的切换,更是商业竞争逻辑的迁移。过去,互联网经济追求的是流量与交互频率,而在世界模型时代,“有效反馈数据”与“模拟计算力”成为新的货币。
智谱AI、生数科技与Momenta的布局表明,真正的壁垒在于能否将下游应用任务(如自动驾驶的避障、Agent的执行)汇聚到统一的架构中,实现“边运行、边进化”。正如Momenta R7通过强化学习实现的量产首发,物理AI的商业价值不在于生成一个虚构的世界,而在于在真实世界的长尾场景中,提供超越人类的预测与决策能力1。
未来三到五年的演进:幻觉与突破
虽然“物体穿模”等物理幻觉依然存在,但我们正处于从“文本大模型”向“交互世界模型”跨越的临界点。未来三年的演进路径将遵循以下逻辑:
- 统一架构化:目前各家模型在视觉、语言、机器人控制上仍有割裂,未来会出现统一的Token空间,将视觉、触觉、传感器数据深度融合。
- 推理成本优化:随着计算效率提升,类似Momenta“双支路”存储记忆的方案,将使千亿参数级别模型具备在端侧运行的能力。
- 范式转变:AI将从“预测下一个字符”转向“预测下一个物理状态”,这不仅是对生产效率的提升,更是人类文明在数字化进程中首次具备了“预演现实”的权力。
这种转变,注定充满争议与挑战。如何确保AI在理解物理世界的过程中,始终维持人类伦理的边界,将成为后续技术治理的重要议题。