谷歌闷声放大招:用「做图的扩散模型」写文字,速度暴涨4倍,一张4090就能跑

温故智新AIGC实验室

TL;DR:

别只盯着OpenAI和Claude打架了!谷歌偷偷把图像扩散模型魔改成文本生成器,速度直接起飞——每秒1000+ tokens,比同规格自回归模型快4倍,而且26B参数的MoE模型量化后18GB显存就能本地跑,一张4090就够了。谷歌CEO皮猜说这是“赛马”,但生态支持已经铺满。


如果说过去一年AI圈最热闹的是OpenAI和Anthropic的“神仙打架”,那谷歌最近的操作就有点像在角落里默默搓大招的扫地僧。就在大家都把目光锁定在“AO两家新模型谁更强”的时候,谷歌突然甩出一张新牌:DiffusionGemma

名字挺拗口,但核心信息炸裂:把生成图片的扩散模型,拿来生成文字了,而且一出手就是4倍加速。1

这到底是个什么妖孽?咱们慢慢聊。

别再用“打字机”写文章了,谷歌改玩“印刷机”

先科普一个老问题:为什么现在的大模型(GPT、Claude、Gemini)生成文字那么慢?尤其是在你本地跑的时候。

原因很简单——它们都是自回归架构,就像一台老式打字机:从左到右,一个字一个字地敲。每敲一个字,都要把几十亿参数的模型权重从显存搬到计算单元,然后算一下,再搬回来。一次生成128个token,就要重复128次这种“搬运工”操作。

这就导致一个尴尬局面:GPU大部分时间都在空转,等着数据搬过来。工程师管这叫“内存带宽瓶颈”。2

而DiffusionGemma的思路完全相反。它借鉴了Stable Diffusion那套“扩散去噪”的玩法——既然做图片能一次铺开整张画布所有像素同时去噪,那做文字为啥不能?

于是,DiffusionGemma的工作流程变成了这样:

  1. 先铺开一张256个token的空白画布,全部填上随机乱码(噪声)。
  2. 然后多轮迭代去噪:高置信度的token先锁定,再用它们当上下文线索去修正其他位置。
  3. 整段文字像是从雾气中逐渐浮现,最终收敛成完整输出。

谷歌自己打了个比方:这是从单线程打字机,升级成了整版印刷的印刷机3

效果有多夸张?看数据:

  • 单块H100上(fp8,batch size=1):每秒1000+ tokens
  • 消费级RTX 5090上:700+ tokens
  • 对比同规格的自回归模型Gemma 4 26B A4B(带MTP加速):只有300+ tokens/s

速度拉开近4倍。而且别忘了,它还是个26B参数的MoE模型,推理时只激活3.8B,量化后18GB显存就能塞下——翻译过来就是:一张RTX 4090就能本地跑1

双向注意力:不仅能快,还能“自己给自己挑错”

速度只是开胃菜。DiffusionGemma还有一个硬核特性:双向注意力

自回归模型只能往前看——生成第N+1个token时,只能看到前N个,看不到后面还没写出来的内容。这就导致一个问题:没法中途纠错,如果前面写错了,只能等全写完再回头改。

而DiffusionGemma的256个token是同时生成的,每个token都能看到画布上所有其他token(前后文同时可见)。所以它能边生成边自我纠错——发现上下文矛盾,立马修正,不用等。

谷歌举了个非常直观的例子:解数独

数独的规则是“后面的数影响前面的数”,自回归模型解起来极其痛苦。但DiffusionGemma微调后,成功率从0%飙到80%3

这意味着什么?以后在代码补全、行内编辑、复杂markdown格式化这些“需要前后文协调”的场景里,扩散模型拥有天然的结构性优势。

谷歌的野心:嘴上说“实验”,身体却很诚实

当然,世界上没有完美的技术。扩散模型在图像领域的老毛病——速度和质量的平衡——在文字领域同样存在。

去噪步数越少越快,但质量差;步数越多质量越好,但速度优势就小了。谷歌也很坦诚,在多项基准测试中,DiffusionGemma的质量确实低于同参数量的标准Gemma 4。所以官方定位是:速度敏感的本地交互场景,比如实时编辑、快速内容迭代,生产环境还是推荐标准自回归模型。4

谷歌CEO皮猜在X上发帖说,DiffusionGemma更像一匹“赛马”——先把速度提起来,看看这条技术路线能跑多远。5

但有趣的是,谷歌嘴上说“实验性”,身体却很诚实:生态支持铺得比谁都全

  • NVIDIA从RTX 4090到H100到DGX Spark全线护航
  • vLLM、MLX、Unsloth、NeMo等推理框架全部支持
  • llama.cpp也在路上了
  • 模型采用Apache 2.0开源协议,权重直接在Hugging Face下载1

这种阵仗,怎么看都不像是“做个技术Demo玩玩”。

不是第一个吃螃蟹的,但可能是第一个把螃蟹端上桌的

其实在DiffusionGemma之前,已经有人验证过这条路了。

今年2月,初创公司Inception Labs就发布了扩散文本模型Mercury 2,号称比Claude、Gemini快5到10倍,是业内第一个真正投产的扩散语言模型。3

谷歌自己也在去年I/O上展示过Gemini Diffusion实验,当时采样速度达到每秒1479 token,但之后沉寂了一整年,外界一度猜测“跑不起来”。6

直到现在,DiffusionGemma卷土重来,而且带着完整的开源生态和硬件适配。

这大概就是大厂的节奏:先让创新公司趟雷,然后自己带着成熟的工程化版本入场

所以,自回归模型要被淘汰了吗?

别急。

目前来看,DiffusionGemma更像是一次路线试探——如果不再执着于一个token一个token往外蹦,而是让模型充分利用GPU的并行算力,大模型的速度上限究竟还能被推多高?

它不能完全替代自回归,但在特定场景(本地实时、快速迭代、非线性结构生成)里,优势极其明显。而且一旦把这条路开源了,社区的力量会推着它往前走。

谷歌自己可能也没想好最终答案,但至少,他们把答案的起点摆在了所有人面前

如果你手头有张4090,不妨去Hugging Face下载试试。说不定你会像当年第一次跑Stable Diffusion一样,发出一声“卧槽”。


引用


  1. 谷歌推出DiffusionGemma:文本生成四倍提速,主攻本地实时应用场景 · 华尔街见闻 · (2026/6/11) · 检索日期2026/6/11 ↩︎ ↩︎ ↩︎

  2. 文本生成中的扩散机制说明 | Google AI for Developers · Google (2026/6/10) · 检索日期2026/6/11 ↩︎

  3. Mythos阴影里谷歌悄悄发模型,速度暴涨4倍 · 量子位· 作者: 一水 (2026/6/11) · 检索日期2026/6/11 ↩︎ ↩︎ ↩︎

  4. Gemini Diffusion:谷歌基于扩散模型的LLM革命 · CSDN · zuiyuelong (2026/6/11) · 检索日期2026/6/11 ↩︎

  5. Sundar Pichai on X: “DiffusionGemma is a racehorse” · X · 2026/6/11 · 检索日期2026/6/11 ↩︎

  6. 12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion · 量子位 · 闻乐 (2025/5/22) · 检索日期2026/6/11 ↩︎