DeepSeek-V3.1:不止编程“杀疯了”,还想带你“飞”入Agent时代!

温故智新AIGC实验室

TL;DR:

DeepSeek-V3.1这次是真的来“搞事情”了!它不光是开源编程界的“新晋顶流”,还首创了“混合推理”模式,号称能开启AI智能体的新时代。简而言之,就是它不光学霸,还能变身,更会用工具,简直是打工人、程序员的“梦中情模”!

AI圈最近是真热闹,各种大模型你方唱罢我登场,好不“内卷”。但要说最近谁又悄悄地扔出了一颗“王炸”,那DeepSeek-V3.1绝对榜上有名。这不,它刚“低调上新”就直接冲上了Hugging Face趋势榜第三,引得技术圈直呼:DeepSeek这是又“杀疯了”吗?!1

王炸登场:一个模型,两种灵魂,还想带你“起飞”?

DeepSeek-V3.1到底是个啥?它又“卷”出了哪些新花样?听我给你扒一扒。

首先,最吸睛的莫过于它那传说中的**「混合推理」模式**。这玩意儿可不是简单的升级迭代,用官方的话说,这是迈向**“智能体时代的第一步”**。想象一下,一个模型能自由切换“思考”和“非思考”两种模式,就像变形金刚,既能“深思熟虑”(reasoner模式),帮你抽丝剥茧解决复杂问题,又能“秒回”(chat模式),日常聊天、快速出活儿都不在话下。这灵活度,简直是把“效率”和“深度”都给拿捏得死死的。23

参数方面,V3.1直接亮出了671B参数的“肌肉”,其中激活参数也有37B,上下文窗口更是直接拉满到128k。这是什么概念?相当于它能一口气读完一部中篇小说,或者处理超长的代码文档,并且还能记得住前面讲了啥,这“记忆力”简直是开了挂!这对于需要处理大量上下文的编程、文档总结等任务来说,无疑是一剂强心针。

编程界新“卷王”:吊打对手,还喊话Claude 4?

你以为光有“混合推理”和“大内存”就够了吗?别忘了,DeepSeek系列在编程方面可是有“祖传秘方”的。V3.1这次直接把编程能力“秀”到了新高度,全球开源编程登顶编码实力碾压DeepSeek-R1、Claude 4 Opus4

在软件工程基准测试中,V3.1全方位“吊打”自家旧款V3-0324和R1-0528。更“嚣张”的是,它在Aider编码测试中,以76.3%的高分,直接把Claude 4 OpusGemini 2.5 Pro甩在身后,这波操作简直是“不讲武德”地赢麻了!1 不仅如此,在多步骤任务处理、工具使用、复杂搜索(BrowseComp)等Agent能力测试中,V3.1也是“实力粉碎”R1,表现得像个“多面手”的全能选手。

这波操作背后,离不开DeepSeek团队的“魔鬼训练”。他们对数据集进行了史诗级扩展,训练量直接“狂飙”10倍!特别是32k扩展阶段增加了10倍,达到了6300亿Token,而128k扩展阶段也增加了3.3倍,达到2090亿Token。1 这就像给模型喂了海量的“精神食粮”,让它“吃得多,长得壮”,聪明得不讲道理。

值得一提的是,V3.1还采用了UE8M0 FP8缩放数据格式进行训练,这不仅能保证兼容性,更有消息称,这参数精度是**“针对即将发布的下一代国产芯片设计”**的!这波国产芯的“梦幻联动”,简直是给咱AI产业打了一剂强心针,未来可期啊!2

梦想很丰满,现实骨感不?网友:数学还差点意思!

当然,金无足赤,人无完人。DeepSeek-V3.1虽然实力“爆表”,但也有网友反馈了一些“小脾气”:

  • 数学推理、逻辑分析: 部分测试者表示,V3.1在这些综合推理任务中进步不明显,甚至某些场景下还不如旧版。看来,学霸的数学还是有点“头疼”的时候。
  • “幻觉”问题: 喜闻乐见的“胡说八道”现象依然存在,这让追求严谨的开发者们感到有些遗憾。
  • “中英文混杂”: 有时回答会突然蹦出中英文混杂的句子,这对于追求流畅用户体验的强迫症患者来说,确实是个“槽点”。

这些问题也提醒我们,AI大模型的路还很长,即使是“顶流”,也还有进步空间。毕竟,AI要真正实现“智能”,可不仅仅是跑分高就行。

市场江湖再掀波澜:DeepSeek是“黑马”还是“中游”?

尽管DeepSeek-V3.1在技术上赚足了眼球,但市场竞争的残酷性也摆在眼前。OpenAI、Google、Meta、智谱等巨头动作频频,“神仙打架”愈发激烈。有数据显示,DeepSeek的月均下载量和活跃用户规模在Q2有所下滑,似乎从昔日的“领跑”变成了“中游”水平。2

然而,这并不意味着DeepSeek“凉凉”了。其开源模型被腾讯、字节跳动、阿里、百度等众多第三方平台广泛接入,据估算,超过70%的DeepSeek模型调用量都发生在这些第三方平台!这就像是“闷声发大财”,虽然自己的App数据下滑,但在B端市场,DeepSeek早已成为众多公司底层AI能力的“幕后英雄”。Token消耗量更是持续增长,足以证明其强大的渗透力和需求量。2

此外,DeepSeek也对API定价进行了调整,9月6日起取消了夜间优惠。输入和输出的Token价格都有所变化,这或许也反映了DeepSeek对其模型能力和市场价值的信心。4

总的来说,DeepSeek-V3.1的发布,无疑再次证明了国产大模型在“卷”向AGI的路上从未止步。它不仅在编程领域立下了“汗马功劳”,更以“混合推理”和强大的Agent能力,为我们描绘了AI未来图景的一角。虽然还有一些“小瑕疵”,但谁又能说这匹“黑马”不会在智能体时代再度狂飙呢?让我们拭目以待!

引用


  1. DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍·36氪·新智元(2025/8/21)·检索日期2025/8/21 ↩︎ ↩︎ ↩︎

  2. 迈向智能体时代的第一步!DeepSeek V3.1发布,上下文扩展至128K·澎湃新闻·范佳来、胡含嫣、刘天颖(2025/8/21)·检索日期2025/8/21 ↩︎ ↩︎ ↩︎ ↩︎

  3. DeepSeek-V3.1:DeepSeek最新开源的AI大模型·AIHub工具导航(未知)·检索日期2025/8/21 ↩︎

  4. DeepSeek-V3.1 发布·DeepSeek官方文档(2025/8/21)·检索日期2025/8/21 ↩︎ ↩︎