DeepSeek V3.1“突袭”上线:编程战力爆表,Claude Opus 4看了直摇头?

温故智新AIGC实验室

TL;DR:

DeepSeek V3.1这波操作有点猛,不仅上下文直接拉到128K,编程能力更是逆天,在Aider基准测试中把Claude Opus 4甩在身后,更重要的是,这货还便宜到离谱!怪不得全网都在期待DeepSeek R2和V4,这波“卷王”操作,真的让人直呼“YYDS”!

就在昨晚,大模型圈子又被一颗“深海炸弹”给震动了!DeepSeek官方悄咪咪地,就这么把全新的V3.1版本放了出来。没有大张旗鼓的发布会,没有漫天飞舞的预热稿,就像一个“武林高手”突然亮剑,却瞬间击溃了老牌强敌。这不,消息一出,社区直接“沸腾”了,各路技术大神纷纷上手实测,结果惊呆了众人:V3.1不仅上下文长度再次“加长加粗”到128K,更是在编程能力上直接“爆表”,甚至把Anthropic家的Claude Opus 4都给比下去了,这波操作,简直是“降维打击”!

编程“新卷王”登基:Claude 4看完直呼“扎心”!

话说回来,这次V3.1最让人津津乐道的,莫过于它那出神入化的编程能力。江湖传闻,DeepSeek V3.1在Aider编程基准测试中拿下了惊人的71.6%高分123。这个数字意味着什么?简单来说,就是V3.1在写代码、改Bug、甚至完成复杂编程任务方面,表现得像个“开了挂的程序员”。

更让人“意难平”的是,它不仅超越了DeepSeek自家的R1,更是把曾经的“编程顶流”——Claude Opus 4甩在了身后。要知道,Claude Opus 4在编程领域一直是个“硬茬”,如今却被一个“后浪”拍在了沙滩上。

如果你觉得只是性能上的领先还不够刺激,那么价格才是真正的“致命一击”。据实测,DeepSeek V3.1每次完整的编程任务成本仅需1.01美元,而某些专有系统,可能需要它的六十倍

“V3.1编程性能比Claude 4高1%,成本要低68倍。”

— 网友实测对比,这数据,简直是“杀人诛心”!

这不就是“用最少的钱,办最牛X的事儿”吗?简直是开发者们的“福音”,让那些高高在上的API费用瞬间变得“不香了”。难怪DeepSeek V3.1还没公布模型卡,就已经在Hugging Face的趋势榜上“狂飙”,直接冲到了第四位,粉丝数更是突破8万大关,这波流量,妥妥的“顶流待遇”!

架构“小九九”与“思考”模式:它不止是代码搬运工?

除了编程能力一骑绝尘,DeepSeek V3.1这次还藏着不少“小秘密”。眼尖的网友们发现,DeepSeek在官方APP和网页端上,悄然去掉了深度思考(R1)中的“R1”标识。这波操作,让不少技术大佬开始“脑补”:DeepSeek未来是不是要搞**“混合架构”**了?

更神秘的是,V3.1还新增了四个“特殊Token”:

  • <|search begin|> (id: 128796)
  • <|search end|> (id: 128797)
  • <think> (id: 128798)
  • </think> (id: 128799)

这些Token就像给大模型加了“思考加速器”和“搜索引擎直通车”。特别是<think></think>,这不就是明摆着告诉你,“哥们儿要开始深度思考了,别打扰”?有推测认为,这可能暗示了推理模型与非推理模型的融合,未来DeepSeek或许能像人类一样,在执行任务前先“思考一下人生”,再进行搜索和推理,这波“骚操作”简直让人期待值拉满!

上下文“长”到离谱?《红楼梦》也得靠边站?

DeepSeek V3.1这次将上下文长度拓展到128K,官方群里也反复强调这点。128K tokens,按中文算,差不多是10万到16万汉字。这概念有多大?相当于整本《红楼梦》正文(约80-100万字)的六分之一到八分之一,或者说,你一篇超长博士论文,它也能给你“一口气读完”!

我们第一时间也对这个“超长记忆力”进行了实测。喂给它一本《红楼梦》,让它总结前三回。结果模型表示,它大约只能“消化”9%,也就是十分之一的内容4。虽然理论值很高,但在实际应用中,要想让它真的“吃透”这128K上下文,可能还需要一些工程上的优化。不过,值得肯定的是,V3.1在128K上下文的输出速度上,确实有了肉眼可见的提升,这对于处理长文本任务来说,无疑是个好消息。

我们还“整了个活儿”,让它根据“梦”这个字输出尽可能多的内容,试图挑战它的上下文极限。结果嘛,差不多输出3000字左右,模型就“累了,不想写了”停止了输出。看来,大模型也需要“劳逸结合”啊!

实测“翻车”还是“惊艳”?抽象派编程大师的诞生?

光说不练假把式,实测环节自然不能少。

在推理能力方面,经典的“9.11和9.9比大小”问题,V3.1都能轻松“秒答”,看来“智商”是在线的。

至于编程能力,我们让V3.1尝试生成一个动态动画SVG。最终结果,勉强打个80分吧!基本要求满足了,但画面风格和颜色变换功能,它似乎有点“放飞自我”,没能完美实现。和它上一个主打编程的R1-0528相比,效果各有千秋,谁更“对味儿”,还得看个人偏好。

最“高能”的是,我们还让V3.1尝试复刻GPT-5发布会上那个惊艳的法语学习小程序,以及画一个它自己的SVG自画像。结果,自画像的画风着实有些抽象,让人不禁思考:这是AI对“自我”的另类理解吗?看来,在艺术创作领域,DeepSeek V3.1还有很大的“进步空间”啊!

总的来说,DeepSeek V3.1的横空出世,无疑给大模型市场投下了一枚重磅炸弹。它用超强的编程能力和极具竞争力的成本,向所有人证明了国产大模型的“硬核实力”。尽管在某些极限测试和艺术创作方面还有提升空间,但它对业界带来的冲击和未来的想象空间,无疑是巨大的。现在,全网都在“翘首以盼”DeepSeek的R2和V4,谁知道它下次又会“整出什么大活儿”呢?这场大模型“内卷”大赛,看来是越来越精彩了!

引用


  1. DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表 · 虎嗅 · (2025/8/20) · 检索日期2025/8/20 ↩︎

  2. DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表 · 华尔街见闻 · (2025/8/20) · 检索日期2025/8/20 ↩︎

  3. DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲 ... · 新浪财经 · (2025/8/20) · 检索日期2025/8/20 ↩︎

  4. DeepSeek V3.1 Base突袭上线,击败Claude 4编程爆表,全网在蹲R2和V4 · 新智元 · 新智元 (2025/8/20) · 检索日期2025/8/20 ↩︎