超越“预测下一帧”：视频作为世界模型的物理隐喻与商业终局

TL;DR：

视频生成模型正从单纯的视觉创作工具，演变为理解物理世界的通用引擎；Sand.ai 通过自回归、MoE架构与“模型+应用”双轮驱动，揭示了通往世界模型的路径在于对原始观测数据的深度压缩与实时预测。

技术架构的“非共识”博弈

在视频生成领域，市场主流曾长期被 Diffusion（扩散模型）占据，但 Sand.ai 的创始人曹越选择了一条迥异的路径：自回归（Autoregressive）。从第一性原理出发，视频不仅是像素的堆叠，更是具有强因果关系的时序数据。预测下一帧（Predict Next Frame）本质上是在模拟物理演化规律。

Sand.ai 在技术演进中的三个关键节点，体现了其对“效率与规模”的深刻理解：

自回归架构的执着：通过对时序因果的建模，Magi-1 在 Physics IQ 测试中长期领先，证明了在底层逻辑上，视频建模天然契合自回归范式。
音画同出的协同效应：这不仅仅是功能的堆砌，而是对世界状态更高维度的压缩，使模型对真实世界的表达更加完整。
MoE（混合专家模型）的工程突破：面对 Dense 架构随着 Scale Up 而激增的成本，Sand.ai 率先将 MoE 引入视频生成，试图打破成本、速度与效果的“不可能三角”。

世界模型：前 GPT 时代的迷雾与灯塔

当前，“世界模型”已沦为泛滥的营销术语。曹越将其定义为处于“前 GPT 时代”——缺乏统一的定义、缺乏完整观测数据（Observation），且技术路线未收敛。

模型演进的核心逻辑，在于放弃人为定义“隐藏状态”，转向对原始观测（Raw Pixels/Audio）的直接建模。正如 LLM 通过 Predict Next Token 统治了文本领域，视频模型若要实现对物理世界的理解，必须学会从观测数据中“长出”对引力、材料属性甚至物理因果的理解，而非依赖人类编写的物理公式。这正是“苦涩的教训”（The Bitter Lesson）在多模态时代的重演。

商业版图：模型与产品的“双轮驱动”

在模型竞争白热化的背景下，Sand.ai 的商业策略揭示了创业公司的生存逻辑：如果模型公司不具备应用落地的闭环能力，极易被上层产品公司整合或被巨头边缘化。

应用为模型提供数据杠杆：通过 VidMuse 等 Agent 产品，Sand.ai 不仅获得了巨大的 ARR（年度经常性收入），更重要的是构建了反馈循环。用户对生成内容的偏好直接转化为模型后训练（Post-training）的高质量数据，形成了“应用反馈 -> 模型优化 -> 产品体验提升”的飞轮。
资本与牌桌逻辑：视频模型不仅是技术竞赛，更是“烧钱”的牌桌博弈。曹越对 Sora 的关停持有客观评估：当算力投入无法转化为短期产品现金流时，战略收缩是上市公司的必然选择。这也反向证明了初创公司在“垂直整合”上的灵活性——通过更紧密的模型-产品耦合，避开大厂的资源陷阱。

未来展望：牌桌上的存续

未来3-5年，视频模型竞争的终局不会是单一垄断，而更可能是三五家头部玩家共同分割的市场版图。Sand.ai 的核心竞争力在于其持续的“非共识”判断力：即无论外界如何嘈杂，始终将重心放在如何从观测数据中提炼物理真实，并将这种能力平滑地嵌入到可盈利的 Agent 产品中。

当视频生成不再只是为了“看起来合理”，而是为了“行为正确”时，通往真实物理世界模拟的门扉才算真正开启。对于所有的参与者而言，能留在牌桌上的关键，在于是否在每一次技术浪潮中，都押注了那条通往本质的道路。

技术架构的“非共识”博弈

世界模型：前 GPT 时代的迷雾与灯塔

商业版图：模型与产品的“双轮驱动”

未来展望：牌桌上的存续

引用