DiT模型争议:架构“缺陷”与迭代进化,生成式AI的效率与哲学之辩

温故智新AIGC实验室

TL;DR:

核心生成式AI模型DiT近期因其架构“缺陷”引发X平台热议,质疑其学习能力和设计选择。尽管DiT已成为Sora和Stable Diffusion 3等巨头的基石,其创始人谢赛宁在回应中承认了部分“硬伤”并指出模型优化方向,这场争论揭示了AI模型开发中理论验证与实证效率之间的深层哲学冲突,并预示着下一代模型将在训练效率和架构鲁棒性上实现突破。

生成式人工智能领域的核心基石——Diffusion Transformer(DiT)模型,近日在社交媒体X上掀起了一场关于其底层架构“缺陷”的激烈辩论。这场由匿名博主发起的挑战,直指DiT在数学和形式上的潜在“错误”,尤其在模型长期学习能力上的局限,引发了DiT原作者、纽约大学助理教授谢赛宁的直接回应。这不仅是一场技术细节的交锋,更是一场关于AI模型研发方法论、产业迭代速度与学术批判精神的深层对话,对未来生成式AI的演进路径具有深远启示。

技术原理与架构争议解析

DiT模型的诞生标志着扩散模型与Transformer架构的首次深度融合,通过用强大的Transformer替代传统的U-Net作为去噪骨干网络,DiT显著提升了图像和视频生成任务的质量和可扩展性。1其影响力不言而喻,已成为如OpenAI Sora和Stability AI Stable Diffusion 3等前沿生成式AI产品的底层架构。2

然而,争议的焦点在于DiT是否真的存在“隐性架构缺陷”,导致其无法从数据中持续学习并过早达到性能瓶颈。匿名博主引用了名为TREAD(Token Routing for Efficient Architecture-agnostic Diffusion Training)的新研究作为佐证。TREAD通过创新的“令牌路由”机制,在不改变DiT骨干网络架构的前提下,实现了训练效率和生成质量的显著提升,尤其是在高训练时长下,其FID(Fréchet Inception Distance,衡量生成图像质量的指标,越低越好)分数持续优化,而标准DiT的FID却过早稳定。3

博主将DiT的潜在问题归结为两点:

  • “后层归一化”(Post-LayerNorm)的使用: DiT在整个架构中普遍采用Post-LayerNorm,而这种归一化方式在处理扩散过程中数值范围剧烈变化的输入时,被认为可能存在不稳定性。
  • adaLN-zero中MLP对Transformer的“削弱”: 尽管DiT整体宣称是Transformer架构,但在处理关键的条件指导信息时,adaLN-zero单元却使用了简单的多层感知机(MLP),而非Transformer的注意力机制。博主甚至认为,adaLN-zero的设计像是“讨厌注意力操作”,通过完全覆盖注意力单元的输入并注入偏置,限制了模型的表达能力,甚至暗示其可能通过“注入过拟合的偏置”来“调节梯度”而非真正提升性能。4博主进一步指出,当DiT中的部分计算单元被临时替换为“恒等函数”(即不做任何计算,数据直通)时,模型评估分数反而提高,这似乎进一步印证了架构中存在冗余或低效的部分。

面对质疑,谢赛宁进行了直接而有力的回应,语气中不乏对“脑子里做科学”行为的批判。他指出,TREAD更接近于“随机深度”(stochastic depth)的正则化效应,与博主所言的架构缺陷并非同一回事。同时,他坦诚地承认了DiT架构中确实存在一些“硬伤”,最显著的便是其依赖的sd-vae(Stable Diffusion VAE)。他直言不讳地指出,sd-vae“臃肿低效”,处理256×256图像竟需要445.87 GFlops,并且不是端到端的优化。此外,谢赛宁也列举了一系列DiT的验证升级版和优化方向,包括:

  • Lightning DiT:作为经过验证的稳健升级版,结合了swiglu、rmsnorm、rope、patch size=1等优化。
  • 内部表示学习:REPA、VA-VAE、REPA-E、DDT等方法在语义token处理和噪声潜变量结合上的改进。
  • 时间嵌入和文本嵌入:建议时间嵌入使用AdaLN-zero,但文本嵌入应采用交叉注意力,且需以PixArt风格的共享AdaLN方式使用,以避免参数浪费。
  • SiT:应作为随机插值/流匹配的基线。

这场学术争论,以实证数据和代码(TREAD已开源)为武器,凸显了顶级AI研究团队对模型性能极限的持续探索和对开放式批判的积极应对。

产业生态与商业价值评估

DiT作为Transformer应用于扩散模型的先驱,其成功不仅在于学术上的突破,更在于其对整个AIGC产业生态的深远影响。它奠定了Sora和Stable Diffusion 3等商业化巨型模型的底层架构,推动了高质量图像和视频生成的普及。5

TREAD的出现,则提供了一种更高效的训练策略,其在训练速度上的显著提升(例如14/37倍的训练速度提升),直接触及了生成式AI领域的核心商业痛点——算力成本。在AI军备竞赛中,训练成本高昂是许多中小企业和研究机构难以逾越的鸿沟。如果TREAD或其他类似效率优化方法能够广泛应用,将极大地降低模型训练的门槛和成本,从而加速新模型和新应用的涌现,使得更多创新者能够参与到AIGC的浪潮中。

谢赛宁对DiT“硬伤”的坦诚,特别是对sd-vae等非端到端优化组件的批判,体现了头部研究者对模型整体效率和实用性提升的持续关注。这意味着未来的模型优化将不仅仅停留在宏观架构层面,更会深入到每一个微观组件的效率和集成度。这将推动整个产业链对算力、模型架构和算法优化的关注点从“更大、更强”转向“更优、更高效”,形成一个更健康的迭代闭环。

未来发展路径预测与哲学思辨

展望未来3-5年,这场DiT之争预示着生成式AI模型将沿着以下几个关键路径演进:

  1. 效率与鲁棒性将成为核心竞争力: 随着模型规模的爆炸式增长,训练和推理效率将不再是次要考量,而是决定模型商业化成功与否的关键。未来的模型架构将更加注重计算效率、内存优化和训练稳定性,而不仅仅是参数量或理论上的表达能力。类似TREAD的令牌路由、随机深度以及各种归一化策略和注意力机制的优化,将成为常态。
  2. 模块化与组件级优化: 对如sd-vae等“硬伤”的批判,预示着模型组件的解耦、优化与替换将成为重要趋势。研究者将不再满足于一个整体架构的突破,而是深入到每个模块,寻找更高效、更匹配生成任务特点的设计。端到端的可微优化和组件间的无缝衔接将是下一阶段的目标。
  3. 学术界与产业界的良性互动加速迭代: 这场公开的学术辩论,尽管掺杂着情绪,但本质上是开放科学精神的体现。前沿模型一旦发布,即面临全球研究者的审视和挑战。这种高速、公开的批判与自我修正机制,将极大加速AI技术的迭代。正如谢赛宁所言,“每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。”6这种“不破不立”的哲学,正是AI快速演进的内在驱动力。
  4. 跨模态与多模态融合的架构选择: DiT在处理如文本嵌入等复杂条件信息时,推荐使用交叉注意力而非简单的AdaLN-zero,这暗示了未来模型在处理多模态输入时的架构选择将更加精细化和多样化。不同类型的指导信息将采用最适配的机制,以最大化模型的表达能力和生成质量。
  5. AI模型评估标准的多元化: 传统的FID等指标固然重要,但对“隐性缺陷”和长期学习瓶颈的关注,将促使评估体系更加完善,涵盖模型鲁棒性、泛化能力、对新数据的学习效率,乃至对特定任务的适应性等更深层次的维度。

从哲学思辨的角度看,DiT的争议揭示了AI科学中“理论完美”与“经验效用”之间的永恒张力。一个在形式上看似“不完美”的架构,却能催生出Sora这样的世界级应用,这本身就值得深思。真正的科学进步,往往不是源于完美无缺的设计,而是在不断试错、迭代与批判中螺旋上升。这场争论,恰恰是AI领域生命力与活力的生动写照,它提醒我们,在追求“通用智能”的宏伟目标面前,没有任何一个模型是终极答案,唯有持续的探索、开放的质疑和脚踏实地的实验,才能推动人类文明进程走向更深远的未来。

引用


  1. 神经网络算法- 一文搞懂DiT(Diffusion Transformer) ·火山引擎开发者社区· (2025/8/20) ·检索日期2025/8/20 ↩︎

  2. DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学 ·36氪· 冷猫 +0 (2025/8/20) ·检索日期2025/8/20 ↩︎

  3. TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training ·arXiv· (2501.04765) ·检索日期2025/8/20 ↩︎

  4. Understanding and Improving Layer Normalization ·arXiv· (1911.07013) ·检索日期2025/8/20 ↩︎

  5. Scalable Diffusion Models with Transformers ·arXiv· (2212.09748) ·检索日期2025/8/20 ↩︎

  6. DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学 ·机器之心· 冷猫 +0 (2025/8/20) ·检索日期2025/8/20 ↩︎