谷歌开源“文本印刷机”DiffusionGemma：速度赛马，劈柴诚不欺我！

TL;DR：

谷歌今天搞了个大新闻，开源了一款名为 DiffusionGemma 的文本模型。这玩意儿不走寻常路，不按顺序一个字一个字地往外蹦，而是像印刷报纸一样一次性吐出整段文字，速度直接起飞，最高提升4倍。CEO皮查伊（劈柴）亲自认证：“速度像赛马一样快🏇”。虽然质量上还比不上老大哥Gemma 4，但主打一个“快”字，简直是本地AI开发者的新玩具。

这玩意儿到底怎么工作的？从“打字机”到“印刷机”

各位开发者、AI发烧友们，大家好。今天凌晨，谷歌的“AI杂货铺”又上新了，这回上架的是一台“超级文本印刷机”—— DiffusionGemma。

咱们都知道，过去的生成式AI模型，不管是GPT还是Gemma，本质上都是个 “打字机” 。它们生成一句话的方式，就跟我们小学时候写作文一样：憋出一个字，看看前面写了啥，再憋出下一个。这叫 “自回归” 模式，一个字一个字地“预测”输出。虽然靠谱，但慢啊，尤其是在你家那台孤独的显卡上跑的时候，显卡大部分时间都在“摸鱼”等指令。

但谷歌这回推出的 DiffusionGemma，直接把剧本给改了。它不走“字”的路线，走 “块” 的路线。每次一出手，直接生成一个包含256个token的“文本块”。这感觉，就像是把那个慢吞吞的“打字机”，一夜之间升级成了报纸印刷厂的 “高速印刷机”——啪的一下，整段文字就出来了，很快啊！¹

这背后是扩散模型（Diffusion）和混合专家模型（MoE）的“梦幻联动”。简单理解，它不再是“一步一个脚印”，而是先随机给你一团“文字噪声”，然后通过多轮迭代，像雕刻家一样，一步步把这团噪声“修正”成一整段逻辑通顺的文章。这种“双向注意力”机制，让它在生成的时候，每个字都能看到其他的字，相当于拥有了“上帝视角”，自然能更快地发现问题并自我修正。²

“快”到飞起，但也是有代价的

皮查伊（劈柴）在推文里激情安利，说这模型速度“像赛马一样快🏇”。我们来看数据，确实有点东西：

速度暴增：在专用GPU上，生成速度最高能快到4倍。在单张NVIDIA H100上，每秒能飙出 1000+ tokens；哪怕是在消费级的RTX 5090上，也能跑到 700+ tokens/秒。¹
门槛友好：虽然它是个26B（260亿）参数的MoE大模型，但推理时只激活其中的 3.8B（38亿）参数。经过量化后，一块 18GB显存 的消费级显卡就能带得动，这比很多大模型亲民多了。²
天生“补全”圣体：因为能“一眼看穿”整个文本块，DiffusionGemma在行内编辑、代码补全、甚至解数独这种非线性任务上，简直是降维打击。你还在琢磨下一个格子填啥，它已经把整行都分析完了。¹

小编锐评：这波啊，这波是“速度与激情”的AI版。但是，凡事都有个“但是”。

必须得指出，速度是它的超能力，但质量是它的软肋。谷歌官方也老实交代了，这玩意儿目前还是个 “实验性模型” ，在追求“快”的同时，牺牲了一部分输出的整体质量。

如果你的目标是写一篇逻辑严谨的学术论文或者一个复杂的剧情脚本，那还是老老实实用标准版的Gemma 4。但如果你是想搞一个本地运行的、需要快速反馈的AI助手，或者是一个能实时帮你改代码的“幽灵编辑器”，那DiffusionGemma可能就是你的“梦中情模”。¹

开发者们，冲还是不冲？

总的来说，DiffusionGemma的出现，给AI圈提供了一个全新的思路：不是所有场景都需要“深度思考”，有时候“快手快脚”更能解决问题。

对于开发者而言，这是一个非常有趣的“玩具”和生产工具。它打破了传统“逐字生成”的思维定势，尤其是在低并发、本地推理的场景下，优势巨大。你可以把它想象成一个“狂飙”的实习生，虽然偶尔会犯点小错，但胜在执行力超强。

当然，在高并发的云端服务里，传统自回归模型能用“人海战术（批处理）”把算力吃满，DiffusionGemma的优势就不明显了，甚至可能因为算法特殊性导致成本更高。²

所以，结论很清晰：做高质量“精品”，请找Gemma 4；做高速度“爆款”，可以试试DiffusionGemma。

谷歌这次的开源，再次为AI生态添了一把柴。开放的研究氛围，才是技术进步最快的“赛马场”。

谷歌开源26B文本扩散MoE，劈柴：生成速度像赛马一样快·机器之心(2026/6/11)·检索日期2026/6/11 ↩︎ ↩︎ ↩︎ ↩︎
Gemma 4 模型卡片 | Google AI for Developers(2026/6/11)·检索日期2026/6/11 ↩︎ ↩︎ ↩︎