TL;DR:
英伟达又掏出“小而精”的杀手锏——Jet-Nemotron系列小模型,不仅推理速度快到飞起,最高狂飙53倍,还在各种基准测试中吊打一众老牌强手,甚至超越了Mamba 2这匹黑马。看来,GPU霸主盯上“小模型,大作为”了,硬件软件两手抓,这波属实是“开挂”了!
英伟达最近是跟“小模型”杠上了,而且是越“杠”越有劲儿。前脚刚出了个9B的Nemotron Nano 2,让大家直呼“小而精”;后脚又甩出个更小的“王炸”——Jet-Nemotron系列,直接把性能和效率的天花板又往上抬了一截。这架势,简直是把“大力出奇迹”改写成了“小力也能出奇迹”,还带着**“速度与激情”**的滤镜。
我们都知道,大模型固然香,但那烧钱的算力和部署成本,也让不少人望而却步。于是乎,小模型这条赛道就成了兵家必争之地。英伟达这次推出的Jet-Nemotron系列,主打2B和4B两种参数规模,简直就是给**“模型轻量化”打了一针肾上腺素。用“官方”的话说,它不仅在H100 GPU上推理吞吐量最高能提升53倍**,而且在数学、代码、常识、检索、长上下文等多个维度上,准确率更是**“碾压”**Qwen3、Gemma3、Llama3.2这些“前辈”和“竞品”!1
“这不就是传说中的‘又快又准’吗?大人,时代变了!”
“六边形战士”上线:小模型也能打出“王炸”?
别看Jet-Nemotron个头小,能量可不容小觑。在各种复杂的推理基准测试中,它愣是把自己塑造成了一个**“六边形战士”。MMLU-pro、Math、Retrieval、Commonsense、Code、Long,这些评测维度,Jet-Nemotron-4B几乎全都拉满**,仿佛在告诉大家:“我不是针对谁,我是说在座的各位全注意力模型,都还差点火候!”
尤其是在长上下文场景,这模型简直是开了挂。想象一下,当别的模型还在吭哧吭哧地处理长文本时,Jet-Nemotron已经以50倍的解码速度,“唰唰唰”地把结果给你甩脸上了。1
“谁说小模型只能打辅助?人家这明明是carry全场啊!”
这种性能,对于开发者来说简直是福音。意味着在有限的硬件资源下,也能跑出更长的上下文,处理更复杂的任务,而且成本还更低。这不仅是模型能力的提升,更是AI普惠的一大步。
黑科技揭秘:PostNAS和JetBlock,这波操作有点“东西”!
那么问题来了,英伟达是怎么做到让这个“小钢炮”如此“顶”的呢?答案藏在两项核心创新里:后神经网络架构搜索(PostNAS)和JetBlock。听起来是不是有点不明觉厉?别急,记者这就给你“盘”明白。
PostNAS:给老模型“回炉重造”,还能更香?
传统的模型架构优化,往往是从零开始,成本高、风险大。而PostNAS就厉害了,它玩了一手“旧瓶装新酒,还更香了”的骚操作。
“PostNAS就好比是给一栋老房子做精装修,但不是推倒重建,而是在保留主体结构的基础上,只改造那些最核心、最有潜力的房间。而且,它还能帮你精准找到哪个房间的改造投入产出比最高。”
具体来说,PostNAS是在预训练好的Transformer模型上动刀子。它通过一套高效的训练后架构探索流程,去寻找最优的注意力层放置位置,以及最适合的线性注意力块设计。简单粗暴地说,就是它会智能地判断模型里哪些注意力层是“卷王”,哪些是“摸鱼怪”,然后把“卷王”留下,或者用更高效的“打工人”JetBlock去替代那些“摸鱼”的层。最骚的是,它还能在冻结MLP层(模型里的“大脑”)的情况下进行,大大降低了开发成本和风险。1
JetBlock:线性注意力模块的“王炸”
说到JetBlock,这简直是线性注意力模块界的“新晋顶流”。它巧妙地将动态卷积与硬件感知架构搜索结合起来,实现了对传统线性注意力的“史诗级加强”。
我们知道,像Mamba2这样的线性注意力模型,已经在效率上取得了显著突破。但JetBlock呢?它在保持与Mamba2相似的训练和推理吞吐量的同时,却实现了更高的准确率。英伟达甚至自信地表示,在完全相同的训练数据和方案下,JetBlock的表现显著优于Mamba2。1
“就好比Mamba2是百米短跑冠军,JetBlock不仅跑得一样快,还能在跑到终点时顺手解出几道数学题,你说气不气人?”
这背后折射的是英伟达在底层架构创新上的深厚功力。它不仅是速度的提升,更是精度与效率的**“双丰收”**。
未来猜想:英伟达在憋什么“大招”?
英伟达近期频频在小模型领域发力,从Nemotron Nano 2到今天的Jet-Nemotron,这种“痴迷”显然不是心血来潮。这释放了一个清晰的信号:英伟达不仅要继续稳固其在AI算力芯片领域的霸主地位,更要通过优化模型架构,来**“榨干”每一滴芯片性能,将硬件与软件的协同优化**推向极致。
未来的AI应用,尤其是端侧部署、边缘计算等场景,对模型效率的要求会越来越高。英伟达的这一系列“小而美”的模型,无疑为这些场景提供了强大的支撑。这不仅能让更多企业和开发者用得起AI,也能让AI更广泛地渗透到我们生活的方方面面。
“看来,黄仁勋的‘核弹’不仅仅是GPU,还有这些能让GPU火力全开的‘弹药’啊!”
我们有理由相信,随着Jet-Nemotron这类高效小模型的普及,AI的门槛将进一步降低,应用场景也将更加丰富。英伟达的这一步棋,可谓是高瞻远瞩,既抓住了当下对效率的迫切需求,也为未来AI的**“星辰大海”**打下了坚实的基础。
引用
-
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2·新智元·定慧(2025/8/27)·检索日期2025/8/27 ↩︎ ↩︎ ↩︎ ↩︎