谷歌闷声放大招：用「做图的扩散模型」写文字，速度暴涨4倍，一张4090就能跑

TL;DR：

别只盯着OpenAI和Claude打架了！谷歌偷偷把图像扩散模型魔改成文本生成器，速度直接起飞——每秒1000+ tokens，比同规格自回归模型快4倍，而且26B参数的MoE模型量化后18GB显存就能本地跑，一张4090就够了。谷歌CEO皮猜说这是“赛马”，但生态支持已经铺满。

如果说过去一年AI圈最热闹的是OpenAI和Anthropic的“神仙打架”，那谷歌最近的操作就有点像在角落里默默搓大招的扫地僧。就在大家都把目光锁定在“AO两家新模型谁更强”的时候，谷歌突然甩出一张新牌：DiffusionGemma。

名字挺拗口，但核心信息炸裂：把生成图片的扩散模型，拿来生成文字了，而且一出手就是4倍加速。¹

这到底是个什么妖孽？咱们慢慢聊。

先科普一个老问题：为什么现在的大模型（GPT、Claude、Gemini）生成文字那么慢？尤其是在你本地跑的时候。

原因很简单——它们都是自回归架构，就像一台老式打字机：从左到右，一个字一个字地敲。每敲一个字，都要把几十亿参数的模型权重从显存搬到计算单元，然后算一下，再搬回来。一次生成128个token，就要重复128次这种“搬运工”操作。

这就导致一个尴尬局面：GPU大部分时间都在空转，等着数据搬过来。工程师管这叫“内存带宽瓶颈”。²

而DiffusionGemma的思路完全相反。它借鉴了Stable Diffusion那套“扩散去噪”的玩法——既然做图片能一次铺开整张画布所有像素同时去噪，那做文字为啥不能？

于是，DiffusionGemma的工作流程变成了这样：

谷歌自己打了个比方：这是从单线程打字机，升级成了整版印刷的印刷机。³

效果有多夸张？看数据：

速度拉开近4倍。而且别忘了，它还是个26B参数的MoE模型，推理时只激活3.8B，量化后18GB显存就能塞下——翻译过来就是：一张RTX 4090就能本地跑。¹

速度只是开胃菜。DiffusionGemma还有一个硬核特性：双向注意力。

自回归模型只能往前看——生成第N+1个token时，只能看到前N个，看不到后面还没写出来的内容。这就导致一个问题：没法中途纠错，如果前面写错了，只能等全写完再回头改。

而DiffusionGemma的256个token是同时生成的，每个token都能看到画布上所有其他token（前后文同时可见）。所以它能边生成边自我纠错——发现上下文矛盾，立马修正，不用等。

谷歌举了个非常直观的例子：解数独。

数独的规则是“后面的数影响前面的数”，自回归模型解起来极其痛苦。但DiffusionGemma微调后，成功率从0%飙到80%。³

这意味着什么？以后在代码补全、行内编辑、复杂markdown格式化这些“需要前后文协调”的场景里，扩散模型拥有天然的结构性优势。

当然，世界上没有完美的技术。扩散模型在图像领域的老毛病——速度和质量的平衡——在文字领域同样存在。

去噪步数越少越快，但质量差；步数越多质量越好，但速度优势就小了。谷歌也很坦诚，在多项基准测试中，DiffusionGemma的质量确实低于同参数量的标准Gemma 4。所以官方定位是：速度敏感的本地交互场景，比如实时编辑、快速内容迭代，生产环境还是推荐标准自回归模型。⁴

谷歌CEO皮猜在X上发帖说，DiffusionGemma更像一匹“赛马”——先把速度提起来，看看这条技术路线能跑多远。⁵

但有趣的是，谷歌嘴上说“实验性”，身体却很诚实：生态支持铺得比谁都全。

这种阵仗，怎么看都不像是“做个技术Demo玩玩”。

其实在DiffusionGemma之前，已经有人验证过这条路了。

今年2月，初创公司Inception Labs就发布了扩散文本模型Mercury 2，号称比Claude、Gemini快5到10倍，是业内第一个真正投产的扩散语言模型。³

谷歌自己也在去年I/O上展示过Gemini Diffusion实验，当时采样速度达到每秒1479 token，但之后沉寂了一整年，外界一度猜测“跑不起来”。⁶

直到现在，DiffusionGemma卷土重来，而且带着完整的开源生态和硬件适配。

这大概就是大厂的节奏：先让创新公司趟雷，然后自己带着成熟的工程化版本入场。

别急。

目前来看，DiffusionGemma更像是一次路线试探——如果不再执着于一个token一个token往外蹦，而是让模型充分利用GPU的并行算力，大模型的速度上限究竟还能被推多高？

它不能完全替代自回归，但在特定场景（本地实时、快速迭代、非线性结构生成）里，优势极其明显。而且一旦把这条路开源了，社区的力量会推着它往前走。

谷歌自己可能也没想好最终答案，但至少，他们把答案的起点摆在了所有人面前。

如果你手头有张4090，不妨去Hugging Face下载试试。说不定你会像当年第一次跑Stable Diffusion一样，发出一声“卧槽”。

引用

谷歌推出DiffusionGemma：文本生成四倍提速，主攻本地实时应用场景 · 华尔街见闻 · (2026/6/11) · 检索日期2026/6/11 ↩︎ ↩︎ ↩︎
文本生成中的扩散机制说明 | Google AI for Developers · Google (2026/6/10) · 检索日期2026/6/11 ↩︎
Mythos阴影里谷歌悄悄发模型，速度暴涨4倍 · 量子位· 作者: 一水 (2026/6/11) · 检索日期2026/6/11 ↩︎ ↩︎ ↩︎
Gemini Diffusion：谷歌基于扩散模型的LLM革命 · CSDN · zuiyuelong (2026/6/11) · 检索日期2026/6/11 ↩︎
Sundar Pichai on X: “DiffusionGemma is a racehorse” · X · 2026/6/11 · 检索日期2026/6/11 ↩︎
12秒生成1万token！谷歌推出文本「扩散模型」Gemini Diffusion · 量子位 · 闻乐 (2025/5/22) · 检索日期2026/6/11 ↩︎