DeepSeek V3.1“突袭”上线：编程战力爆表，Claude Opus 4看了直摇头？

TL;DR：

DeepSeek V3.1这波操作有点猛，不仅上下文直接拉到128K，编程能力更是逆天，在Aider基准测试中把Claude Opus 4甩在身后，更重要的是，这货还便宜到离谱！怪不得全网都在期待DeepSeek R2和V4，这波“卷王”操作，真的让人直呼“YYDS”！

就在昨晚，大模型圈子又被一颗“深海炸弹”给震动了！DeepSeek官方悄咪咪地，就这么把全新的V3.1版本放了出来。没有大张旗鼓的发布会，没有漫天飞舞的预热稿，就像一个“武林高手”突然亮剑，却瞬间击溃了老牌强敌。这不，消息一出，社区直接“沸腾”了，各路技术大神纷纷上手实测，结果惊呆了众人：V3.1不仅上下文长度再次“加长加粗”到128K，更是在编程能力上直接“爆表”，甚至把Anthropic家的Claude Opus 4都给比下去了，这波操作，简直是“降维打击”！

编程“新卷王”登基：Claude 4看完直呼“扎心”！

话说回来，这次V3.1最让人津津乐道的，莫过于它那出神入化的编程能力。江湖传闻，DeepSeek V3.1在Aider编程基准测试中拿下了惊人的71.6%高分¹²³。这个数字意味着什么？简单来说，就是V3.1在写代码、改Bug、甚至完成复杂编程任务方面，表现得像个“开了挂的程序员”。

更让人“意难平”的是，它不仅超越了DeepSeek自家的R1，更是把曾经的“编程顶流”——Claude Opus 4甩在了身后。要知道，Claude Opus 4在编程领域一直是个“硬茬”，如今却被一个“后浪”拍在了沙滩上。

如果你觉得只是性能上的领先还不够刺激，那么价格才是真正的“致命一击”。据实测，DeepSeek V3.1每次完整的编程任务成本仅需1.01美元，而某些专有系统，可能需要它的六十倍！

“V3.1编程性能比Claude 4高1%，成本要低68倍。”

— 网友实测对比，这数据，简直是“杀人诛心”！

这不就是“用最少的钱，办最牛X的事儿”吗？简直是开发者们的“福音”，让那些高高在上的API费用瞬间变得“不香了”。难怪DeepSeek V3.1还没公布模型卡，就已经在Hugging Face的趋势榜上“狂飙”，直接冲到了第四位，粉丝数更是突破8万大关，这波流量，妥妥的“顶流待遇”！

架构“小九九”与“思考”模式：它不止是代码搬运工？

除了编程能力一骑绝尘，DeepSeek V3.1这次还藏着不少“小秘密”。眼尖的网友们发现，DeepSeek在官方APP和网页端上，悄然去掉了深度思考（R1）中的“R1”标识。这波操作，让不少技术大佬开始“脑补”：DeepSeek未来是不是要搞**“混合架构”**了？

更神秘的是，V3.1还新增了四个“特殊Token”：

<｜search begin｜> (id: 128796)
<｜search end｜> (id: 128797)
<think> (id: 128798)
</think> (id: 128799)

这些Token就像给大模型加了“思考加速器”和“搜索引擎直通车”。特别是<think>和</think>，这不就是明摆着告诉你，“哥们儿要开始深度思考了，别打扰”？有推测认为，这可能暗示了推理模型与非推理模型的融合，未来DeepSeek或许能像人类一样，在执行任务前先“思考一下人生”，再进行搜索和推理，这波“骚操作”简直让人期待值拉满！

上下文“长”到离谱？《红楼梦》也得靠边站？

DeepSeek V3.1这次将上下文长度拓展到128K，官方群里也反复强调这点。128K tokens，按中文算，差不多是10万到16万汉字。这概念有多大？相当于整本《红楼梦》正文（约80-100万字）的六分之一到八分之一，或者说，你一篇超长博士论文，它也能给你“一口气读完”！

我们第一时间也对这个“超长记忆力”进行了实测。喂给它一本《红楼梦》，让它总结前三回。结果模型表示，它大约只能“消化”9%，也就是十分之一的内容⁴。虽然理论值很高，但在实际应用中，要想让它真的“吃透”这128K上下文，可能还需要一些工程上的优化。不过，值得肯定的是，V3.1在128K上下文的输出速度上，确实有了肉眼可见的提升，这对于处理长文本任务来说，无疑是个好消息。

我们还“整了个活儿”，让它根据“梦”这个字输出尽可能多的内容，试图挑战它的上下文极限。结果嘛，差不多输出3000字左右，模型就“累了，不想写了”停止了输出。看来，大模型也需要“劳逸结合”啊！

实测“翻车”还是“惊艳”？抽象派编程大师的诞生？

光说不练假把式，实测环节自然不能少。

在推理能力方面，经典的“9.11和9.9比大小”问题，V3.1都能轻松“秒答”，看来“智商”是在线的。

至于编程能力，我们让V3.1尝试生成一个动态动画SVG。最终结果，勉强打个80分吧！基本要求满足了，但画面风格和颜色变换功能，它似乎有点“放飞自我”，没能完美实现。和它上一个主打编程的R1-0528相比，效果各有千秋，谁更“对味儿”，还得看个人偏好。

最“高能”的是，我们还让V3.1尝试复刻GPT-5发布会上那个惊艳的法语学习小程序，以及画一个它自己的SVG自画像。结果，自画像的画风着实有些抽象，让人不禁思考：这是AI对“自我”的另类理解吗？看来，在艺术创作领域，DeepSeek V3.1还有很大的“进步空间”啊！

总的来说，DeepSeek V3.1的横空出世，无疑给大模型市场投下了一枚重磅炸弹。它用超强的编程能力和极具竞争力的成本，向所有人证明了国产大模型的“硬核实力”。尽管在某些极限测试和艺术创作方面还有提升空间，但它对业界带来的冲击和未来的想象空间，无疑是巨大的。现在，全网都在“翘首以盼”DeepSeek的R2和V4，谁知道它下次又会“整出什么大活儿”呢？这场大模型“内卷”大赛，看来是越来越精彩了！

引用

DeepSeek V3.1 Base突袭上线！击败Claude 4编程爆表 · 虎嗅 · (2025/8/20) · 检索日期2025/8/20 ↩︎
DeepSeek V3.1 Base突袭上线！击败Claude 4编程爆表 · 华尔街见闻 · (2025/8/20) · 检索日期2025/8/20 ↩︎
DeepSeek V3.1 Base突袭上线！击败Claude 4编程爆表，全网在蹲 ... · 新浪财经 · (2025/8/20) · 检索日期2025/8/20 ↩︎
DeepSeek V3.1 Base突袭上线，击败Claude 4编程爆表，全网在蹲R2和V4 · 新智元 · 新智元 (2025/8/20) · 检索日期2025/8/20 ↩︎