马斯克深夜点赞、9B 硬刚 120B：阿里 Qwen3.5 到底给 AI 灌了什么“压缩液”？

阿里通义千问 Qwen3.5 小模型系列“炸场”发布，马斯克深夜点赞其“智能密度”爆表。这波 9B 参数的小钢炮不仅能吊打前辈 30B，甚至能跟 120B 的巨兽掰手腕，让 AI 硬件本地运行不再是梦。

马斯克又双叒叕在 X（原 Twitter）上给中国 AI 点赞了。

昨天深夜，阿里通义千问团队甩出了一套 Qwen3.5 小模型“全家桶”，覆盖了从 0.8B 到 9B 的四个规格。本以为只是日常“卷”模型，没想到马斯克直接在下面评论了一句：「Impressive intelligence density」（令人印象深刻的智能密度）。¹²

能让老马这个“科技圈顶流”专门翻牌子，阿里的这几款小模型到底是有多“浓缩”？

很多人对“小模型”的固有印象还停留在“智商够用就好”。但 Qwen3.5 显然不想当个挂件。这次发布的四款模型，核心采用了一套**「门控增量网络（Gated DeltaNet）与稀疏混合专家（MoE）」**相结合的混合注意力架构。²

简单来说，这就像是给模型装了一个“智能开关”。以前模型处理任务是全员出动，不管杀鸡还是屠龙都得耗费巨大算力；现在 Qwen3.5 学聪明了，它能根据任务难度，精准激活必要的部分。

“这就好比一个精英团队，平时大家各司其职，只有遇到特定问题时才让专家出手，既保证了专业性，又没让工资（算力）白花。”

更绝的是，Qwen3.5 采用了“早期融合”的多模态训练机制。文本、图像、视频在底层就是“一家人”，而不是像某些模型那样，事后再给文本模型强行“缝”一个视觉插件。²这种架构层面的原生支持，让 0.8B 的这种“蚊子级”模型在视觉解析上都能打出远超同级的表现。

在 AI 圈，参数量往往代表着“地位”。但 Qwen3.5 这次有点“以下犯上”的意思。

特别是那个 9B 模型，表现简直离谱：

MMLU-Pro 跑分高达 82.5：这个数据不仅超越了上一代 30B 的“大哥”，甚至在视觉任务上把 GPT-5-Nano 和 Gemini 2.5 Flash Lite 甩在了身后。²
13 倍的压缩奇迹：海外有开发者实测后惊呼，9B 模型的性能已经能和规模达 120B 的某些开源巨头持平，但体积却只有人家的十三分之一。²

这种**“拿匕首打出大砍刀伤害”**的行为，直接让海外网友心态崩了。有人调侃：“称它为小模型就像把飓风叫做微风，你管这叫小？”

更让开发者狂欢的是，这些模型完全可以在 Mac 甚至 iPhone 上本地跑起来。知名工具 Ollama 已经第一时间跟进，现在你只需要一行命令，就能在自己的电脑上养一个“马斯克同款”的智能脑。²

阿里为什么要死磕这些小模型？通义千问技术负责人林俊旸曾分享过一个很“温情”的初心：以前 7B 规模的模型实验成本太高，很多硕博生买不起显卡。“如果把 1.8B 的模型开源，很多同学就能顺利毕业了。”²

当然，除了救救学生，小模型更深层的野心在于**“端侧 AI”**。

设想一下，你戴着一副 AI 眼镜在街上走。如果你问眼镜“前面有什么障碍物”，它还得把数据传到云端等三秒才回复，那你可能已经撞到电线杆了。云端大模型再强，也无法克服物理上的网络延迟。

Qwen3.5 系列的出现，本质上是给这些硬件注入了“瞬发”的灵魂。就像今天没人会夸手机能打电话一样，未来 AI 在设备端实时解析世界，也将变得稀松平常。²

正如马斯克所说，这不仅是模型，这是**“智能密度”**的胜利。当 AI 变得又小又猛，它才真正开始了“无处不在”的进化。

引用