越过Token的囚笼：当“连续流”成为通往AGI的隐秘航道

TL;DR：当前大模型普遍依赖离散的“Token序列”作为认知媒介，这在本质上构成了限制机器理解复杂世界规律的结构性瓶颈。以何恺明团队的ELF和字节跳动Seed团队的Cola DLM为标志，AI界正尝试将语义建模从离散空间迁移至连续潜空间，试图通过更符合物理世界本质的“流”模型，跨越通往AGI的最后一道认识论鸿沟。

语言的局限：认知建模的结构性坍塌

如果说过去五年的大模型浪潮是一场针对人类语言结构的“统计学胜利”，那么今天，这场胜利的余晖已经触及了认知的硬上限。正如维特根斯坦所言，“语言的边界即世界的边界”。现行自回归架构将人类认知强行压缩为离散的Token序列，虽然在模拟表达上趋于完美，但却永远无法触及那些潜藏于人类大脑感觉皮层中、未经符号化编码的连续直觉——因果感、空间感知与具身反馈。

当我们审视Ilya Sutskever关于“预训练终结”的预言，以及Yann LeCun对自回归范式的批判时，核心的分歧点在于：我们是在模拟“人类如何说话”，还是在建模“世界如何运作”？ 离散Token本质上是一种有损压缩协议，当模型被困在符号序列的“囚笼”中，即便规模扩张至无限，也无法推演出非符号化的世界物理规律。

连续空间的“逃逸”：重构语义原动力

2026年5月，何恺明团队提出的ELF（Embedded Language Flows）以及字节跳动Seed团队的Cola DLM，不仅是学术上的技术迭代，更是一次范式层面的“逃逸”。

这些模型的核心突破在于：彻底摒弃了在Token空间内进行逐点去噪的思路，将整个语义生成过程置于连续的潜空间（Latent Space）。ELF通过流匹配（Flow Matching）技术，从噪声平滑演化至目标嵌入，仅在生成的最后一步完成离散化映射。这种做法的本质价值在于：

计算效率的飞跃：ELF仅用32步采样即可超越离散模型1024步的效果，训练数据需求降低了一个数量级。
语义稳定性的重构：如Cola DLM所验证，模型不再是记忆词表间的转移概率，而是在建模一种抽象、连续的“语义状态”。这使得模型终于能够将语义意义上的共性识别为统一的向量，而非将不同的表达视为独立的对齐任务。

产业的暗流与商业版图的重置

从商业敏锐度来看，这一架构变迁对AI产业链的影响是深远且残酷的。如果连续空间建模成为主流，首当其冲的便是当前围绕“Token”建立的商业逻辑。

现有的收费模式基于输入输出的Token计数，这是因为Token是离散且透明的计算颗粒度。一旦计算迁移至连续空间，输出的长度将与计算耗时脱钩，整个定价逻辑将面临崩溃与重构。此外，对于那些致力于“多模态桥接”的中间件厂商而言，如果基础模型原生工作于统一的连续空间，文本与图像、视频之间的隔阂自然消解，其存在的价值空间将瞬间缩减。

巨头们的布局早已显露端倪。Google深耕原生多模态统一，旨在为所有模态建立统一坐标系；OpenAI虽在Sora上经历过战术调整，但其对于Agent架构的执着，本质上也是在寻找脱离纯语言文本、进入交互式反馈体系的路径。

下一代AGI的通关密码

尽管连续路线证明了效率与优雅，但我们必须清醒地意识到：连续空间只是解开了语言的桎梏，并未直接赋予机器AGI。

如果模型不再受限于人类语言的编码格式，它需要的新训练信号从何而来？目前的答案正指向主动探索与自我改进（RSI）。正如LeCun所言，“生成只是模拟，预测才是理解”。通向AGI的未来，很可能不再依赖于人类已有的海量文本库，而是模型在物理世界（或高度仿真的世界模型）中进行干预、观察后果、并基于因果反馈进行递归学习的过程。

我们正在见证一场认知的“数字化转型”——从“记录人类语言”的录音机，演进为“构建世界模型”的思考者。虽然技术落地的路径依然漫长，但当第一批模型开始在连续的向量流中思考时，我们已经站在了新范式的起点。

语言的局限：认知建模的结构性坍塌

连续空间的“逃逸”：重构语义原动力

产业的暗流与商业版图的重置

下一代AGI的通关密码

引用