TL;DR:
阿里通义深夜扔出“王炸”,发布Qwen3-Next新架构,用区区30亿激活参数,搞出800亿参数甚至2350亿参数级别的性能。更炸裂的是,训练成本直接“膝盖斩”90%!这波“降本增效”操作,简直是给大模型界来了场“降维打击”。
就在大家还在深夜刷手机的时候,阿里通义实验室悄悄干了件“大事”:发布了自家大模型的新架构——Qwen3-Next。光听名字可能觉得有点拗口,但数据一出来,瞬间就让你“惊掉下巴”!1
这回阿里通义真“杀疯了”:小参数也有大能量!
想象一下,你平时玩游戏,显卡配置得拉满才能带得动大作。但现在,有人告诉你,用一块迷你显卡的功耗,就能跑出顶级显卡的性能,你敢信吗?阿里通义这波操作,就是这么“不讲武德”!
他们推出的Qwen3-Next-80B-A3B-Base模型,虽然总参数量高达800亿,但它真正“干活儿”的时候,竟然只激活了区区30亿个参数!这感觉就像一个八十人的特种部队,每次任务只派出最精锐的三个人,却能完成整个部队的任务。
最让人“狂喜”的是,这套新架构的“性价比”直接拉满:
- 训练成本?“膝盖斩”! 相比之前的Qwen3-32B,Qwen3-Next只需不到9.3%的GPU计算资源,就能达到甚至超越其性能。用智东西的话说,总训练成本更是不到Qwen3-30A-3B的80%。这简直就是大模型界的“拼多多”,用更少的钱办更多的事!
- 推理速度?“坐火箭”! 在长达32k上下文的场景下,推理吞吐量能达到Qwen3-32B的10倍以上!短上下文(4k)也有7倍的预填充和4倍的解码吞吐量提升。这效率,简直了!
- 上下文长度?“超长待机”! 原生支持262144个token,甚至可以扩展到惊人的1010000个token!这意味着你可以扔进去一本《红楼梦》甚至更多内容,模型也能消化得明明白白。
更“炸场”的是,这小参数的模型,性能直接对标“旗舰”。它的指令模型,表现竟然与阿里参数规模更大的Qwen3-235B-A22B-Instruct-2507相近。而思维模型,更是直接“碾压”谷歌的闭源模型Gemini-2.5-Flash-Thinking!1 是不是有点“降维打击”那意思了?
秘籍大公开:凭啥能“四两拨千斤”?
要做到“花小钱办大事”,可不是光靠“画大饼”就行。阿里通义这次可是亮出了好几招“独门秘籍”,把大模型的“内功”练到了极致。
这些“神操作”的核心,藏在Qwen3-Next架构的四大创新里:
- 混合注意力机制: 这就好比大脑在处理信息时,既有对重点信息的“深度聚焦”(Gated Attention),也有对长距离上下文的“全局扫描”(Gated DeltaNet)。75%的层用线性注意力,25%的层保留标准注意力,这种“聪明地分配注意力”方式,让模型在处理超长上下文时,能力和效率都能“在线”。
- 高稀疏度MoE结构: MoE(混合专家)架构,简单来说,就是把一个大模型分成很多个小专家,根据不同任务,只让相关的专家“出马”。Qwen3-Next把这个“精打细算”做到了极致,实现了1:50的专家激活比(以前Qwen3是1:16)。这意味着每次运算,只需要“唤醒”极少数的专家,极大地减少了计算资源消耗,真正做到了“好钢用在刀刃上”!
- 一系列训练稳定友好的优化: 就像盖高楼,地基必须打得稳。阿里这次引入了零中心化、权重衰减LayerNorm以及注意力输出门控等技术,保证了模型在训练过程中的“四平八稳”,避免了各种“幺蛾子”。
- 多Token预测(MTP)机制: 这个机制,简直是推理速度的“加速器”。它能让模型在一次运算中预测出多个token,大大提升了推理效率。用一位开发者在X上的话来说,MTP是这次更新中最“令人印象深刻”的部分!1 这种“预判你的预判”的能力,让大模型的反应速度直接“飙升”。
大模型“卷”成本新趋势?未来还有啥“王炸”?
从Qwen3-Next的发布,我们看到一个清晰的趋势:大模型之争,已经不只是参数规模的“军备竞赛”,更是成本效益和架构创新的较量。在算力是“硬通货”的当下,谁能用更少的资源跑出更强的性能,谁就更有可能笑到最后。
阿里巴巴此前发布的Qwen3模型,就以混合专家(MoE)架构为核心,大幅降低了成本,并在性能上超越了DeepSeek-R1、OpenAI-o1等顶尖模型,可谓是“卷”成本的先行者。2
阿里通义这次不仅开源了Qwen3-Next的指令模型(Instruct)和思维模型(Thinking),让全球开发者都能“白嫖”体验,还在魔搭社区、Hugging Face等平台同步上线,甚至可以直接在Qwen Chat或阿里云百炼、NVIDIA API Catalog上“尝鲜”。这无疑会进一步推动开源社区的繁荣,让更多人能参与到大模型的创新中来。
研究人员已经预告,未来还会持续优化这一架构,并开发Qwen3.5。与此同时,阿里通义在其他细分领域也频频亮剑,像超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等,都展现了其在多领域布局的“野心”。
不得不说,阿里通义这波“降本增效”的“王炸”,不仅在大模型圈里掀起了新的波澜,也为整个行业指明了一个方向:未来的大模型,或许不再是单纯的“大力出奇迹”,而是更讲究“巧劲儿”和“智慧”。毕竟,谁能让AI变得更“平价”又更“聪明”,谁才能真正走到大众身边,掀起新的浪潮!
引用
-
阿里深夜干了件大事,成本暴降90%·智东西·程茜(2025/9/12)·检索日期2025/9/12 ↩︎ ↩︎ ↩︎
-
新的大模型杀手来了!阿里开源新一代通义千问模型Qwen3·21经济网(2025/4/29)·检索日期2025/9/12 ↩︎