马斯克深夜点赞、9B 硬刚 120B:阿里 Qwen3.5 到底给 AI 灌了什么“压缩液”?

温故智新AIGC实验室

TL;DR:

阿里通义千问 Qwen3.5 小模型系列“炸场”发布,马斯克深夜点赞其“智能密度”爆表。这波 9B 参数的小钢炮不仅能吊打前辈 30B,甚至能跟 120B 的巨兽掰手腕,让 AI 硬件本地运行不再是梦。

马斯克又双叒叕在 X(原 Twitter)上给中国 AI 点赞了。

昨天深夜,阿里通义千问团队甩出了一套 Qwen3.5 小模型“全家桶”,覆盖了从 0.8B 到 9B 的四个规格。本以为只是日常“卷”模型,没想到马斯克直接在下面评论了一句:「Impressive intelligence density」(令人印象深刻的智能密度)12

能让老马这个“科技圈顶流”专门翻牌子,阿里的这几款小模型到底是有多“浓缩”?

技术大揭秘:这届小模型怎么比浓缩咖啡还猛?

很多人对“小模型”的固有印象还停留在“智商够用就好”。但 Qwen3.5 显然不想当个挂件。这次发布的四款模型,核心采用了一套**「门控增量网络(Gated DeltaNet)与稀疏混合专家(MoE)」**相结合的混合注意力架构。2

简单来说,这就像是给模型装了一个“智能开关”。以前模型处理任务是全员出动,不管杀鸡还是屠龙都得耗费巨大算力;现在 Qwen3.5 学聪明了,它能根据任务难度,精准激活必要的部分。

“这就好比一个精英团队,平时大家各司其职,只有遇到特定问题时才让专家出手,既保证了专业性,又没让工资(算力)白花。”

更绝的是,Qwen3.5 采用了“早期融合”的多模态训练机制。文本、图像、视频在底层就是“一家人”,而不是像某些模型那样,事后再给文本模型强行“缝”一个视觉插件。2这种架构层面的原生支持,让 0.8B 的这种“蚊子级”模型在视觉解析上都能打出远超同级的表现。

行业“地震”:谁家的大模型又被“反杀”了?

在 AI 圈,参数量往往代表着“地位”。但 Qwen3.5 这次有点“以下犯上”的意思。

特别是那个 9B 模型,表现简直离谱:

  • MMLU-Pro 跑分高达 82.5:这个数据不仅超越了上一代 30B 的“大哥”,甚至在视觉任务上把 GPT-5-Nano 和 Gemini 2.5 Flash Lite 甩在了身后。2
  • 13 倍的压缩奇迹:海外有开发者实测后惊呼,9B 模型的性能已经能和规模达 120B 的某些开源巨头持平,但体积却只有人家的十三分之一。2

这种**“拿匕首打出大砍刀伤害”**的行为,直接让海外网友心态崩了。有人调侃:“称它为小模型就像把飓风叫做微风,你管这叫小?”

更让开发者狂欢的是,这些模型完全可以在 Mac 甚至 iPhone 上本地跑起来。知名工具 Ollama 已经第一时间跟进,现在你只需要一行命令,就能在自己的电脑上养一个“马斯克同款”的智能脑。2

未来预测:AI 硬件的“灵魂”终于有地方安放了

阿里为什么要死磕这些小模型?通义千问技术负责人林俊旸曾分享过一个很“温情”的初心:以前 7B 规模的模型实验成本太高,很多硕博生买不起显卡。“如果把 1.8B 的模型开源,很多同学就能顺利毕业了。”2

当然,除了救救学生,小模型更深层的野心在于**“端侧 AI”**。

设想一下,你戴着一副 AI 眼镜在街上走。如果你问眼镜“前面有什么障碍物”,它还得把数据传到云端等三秒才回复,那你可能已经撞到电线杆了。云端大模型再强,也无法克服物理上的网络延迟。

  • AI 眼镜、手表、耳机:这些硬件需要的是毫秒级的端侧响应。3
  • 隐私与安全:在工厂、医院这些敏感场景,数据不出本地是硬需求。

Qwen3.5 系列的出现,本质上是给这些硬件注入了“瞬发”的灵魂。就像今天没人会夸手机能打电话一样,未来 AI 在设备端实时解析世界,也将变得稀松平常。2

正如马斯克所说,这不仅是模型,这是**“智能密度”**的胜利。当 AI 变得又小又猛,它才真正开始了“无处不在”的进化。

引用