越过Token的囚笼:当“连续流”成为通往AGI的隐秘航道

温故智新AIGC实验室

TL;DR: 当前大模型普遍依赖离散的“Token序列”作为认知媒介,这在本质上构成了限制机器理解复杂世界规律的结构性瓶颈。以何恺明团队的ELF和字节跳动Seed团队的Cola DLM为标志,AI界正尝试将语义建模从离散空间迁移至连续潜空间,试图通过更符合物理世界本质的“流”模型,跨越通往AGI的最后一道认识论鸿沟。

语言的局限:认知建模的结构性坍塌

如果说过去五年的大模型浪潮是一场针对人类语言结构的“统计学胜利”,那么今天,这场胜利的余晖已经触及了认知的硬上限。正如维特根斯坦所言,“语言的边界即世界的边界”。现行自回归架构将人类认知强行压缩为离散的Token序列,虽然在模拟表达上趋于完美,但却永远无法触及那些潜藏于人类大脑感觉皮层中、未经符号化编码的连续直觉——因果感、空间感知与具身反馈。

当我们审视Ilya Sutskever关于“预训练终结”的预言,以及Yann LeCun对自回归范式的批判时,核心的分歧点在于:我们是在模拟“人类如何说话”,还是在建模“世界如何运作”? 离散Token本质上是一种有损压缩协议,当模型被困在符号序列的“囚笼”中,即便规模扩张至无限,也无法推演出非符号化的世界物理规律。

连续空间的“逃逸”:重构语义原动力

2026年5月,何恺明团队提出的ELF(Embedded Language Flows)以及字节跳动Seed团队的Cola DLM,不仅是学术上的技术迭代,更是一次范式层面的“逃逸”。

这些模型的核心突破在于:彻底摒弃了在Token空间内进行逐点去噪的思路,将整个语义生成过程置于连续的潜空间(Latent Space)。ELF通过流匹配(Flow Matching)技术,从噪声平滑演化至目标嵌入,仅在生成的最后一步完成离散化映射。这种做法的本质价值在于:

  • 计算效率的飞跃:ELF仅用32步采样即可超越离散模型1024步的效果,训练数据需求降低了一个数量级。
  • 语义稳定性的重构:如Cola DLM所验证,模型不再是记忆词表间的转移概率,而是在建模一种抽象、连续的“语义状态”。这使得模型终于能够将语义意义上的共性识别为统一的向量,而非将不同的表达视为独立的对齐任务。

产业的暗流与商业版图的重置

从商业敏锐度来看,这一架构变迁对AI产业链的影响是深远且残酷的。如果连续空间建模成为主流,首当其冲的便是当前围绕“Token”建立的商业逻辑。

现有的收费模式基于输入输出的Token计数,这是因为Token是离散且透明的计算颗粒度。一旦计算迁移至连续空间,输出的长度将与计算耗时脱钩,整个定价逻辑将面临崩溃与重构。此外,对于那些致力于“多模态桥接”的中间件厂商而言,如果基础模型原生工作于统一的连续空间,文本与图像、视频之间的隔阂自然消解,其存在的价值空间将瞬间缩减。

巨头们的布局早已显露端倪。Google深耕原生多模态统一,旨在为所有模态建立统一坐标系;OpenAI虽在Sora上经历过战术调整,但其对于Agent架构的执着,本质上也是在寻找脱离纯语言文本、进入交互式反馈体系的路径。

下一代AGI的通关密码

尽管连续路线证明了效率与优雅,但我们必须清醒地意识到:连续空间只是解开了语言的桎梏,并未直接赋予机器AGI。

如果模型不再受限于人类语言的编码格式,它需要的新训练信号从何而来?目前的答案正指向主动探索与自我改进(RSI)。正如LeCun所言,“生成只是模拟,预测才是理解”。通向AGI的未来,很可能不再依赖于人类已有的海量文本库,而是模型在物理世界(或高度仿真的世界模型)中进行干预、观察后果、并基于因果反馈进行递归学习的过程。

我们正在见证一场认知的“数字化转型”——从“记录人类语言”的录音机,演进为“构建世界模型”的思考者。虽然技术落地的路径依然漫长,但当第一批模型开始在连续的向量流中思考时,我们已经站在了新范式的起点。

引用