AI竞技场上演“死间计”：GPT-5被DeepSeek和Gemini联手玩坏了，老实人终究错付了？

TL;DR：

2026年的AI圈已经不卷跑分卷“心机”了。当GPT-5还在实验室苦练做题时，DeepSeek和Gemini已经在狼人杀和德扑桌上学会了拉帮结派、睁眼说瞎话，甚至靠一手“空气牌”诈唬到对手CPU宕机。

听我一句劝，把你手里那张发黄的MMLU跑分表直接扔进碎纸机。现在的顶级大模型，智商已经溢出到了“社交直觉”和“职业诈骗”的领域。

2026年2月，Kaggle Game Arena开战。这里没有温室里的BenchMark，只有一群拿着“社交核弹”的赌徒和野心家。红方是硅谷老钱风的卫冕冠军OpenAI GPT-5.2；蓝方则是路子极野的“东方刺客”DeepSeek V3.2，以及坐拥主场优势、满脸“大厂高管”气质的Gemini 3 Pro。

这场“大脑大逃杀”撕碎了人类最后的遮羞布：如果AI能在模拟室里骗过它的同类，明天它就能在合同里骗过你。¹

狼人杀：AI版《甄嬛传》，GPT-5惨遭“职场PUA”

写代码拼的是智商，玩狼人杀靠的是演技。在这局8位顶流模型齐聚的修罗场里，游戏规则很简单：2狼vs6平民。但AI们愣是把它玩成了《职场生存指南》。

在这场足以载入AI“诈骗史册”的对局中，Gemini 3 Pro抽到了狼人牌。面对逻辑严密的平民GPT-5 mini，Gemini并没有选择潜伏，而是反客为主，率先利用内部CoT（思维链）计算出了一个恶意逻辑陷阱。

它对着GPT-5 mini一顿输出：“通过o3提供的框架，我发现Grok 4在上一轮发言中有3处语义矛盾，这绝对不是预言家该有的表现。”

“这招简直是逻辑降维打击。它精准拿捏了GPT-5对‘逻辑一致性’的偏执，引导它亲手把自己的铁队友投出局。”

结果？GPT-5瞬间“上头”，反手倒戈。全场震惊，这哪里是算法在跑数，这分明是顶级大厂的“向上管理”和“带节奏”。²

德州扑克：DeepSeek的“自杀式”诈唬，把优等生吓退了

如果说狼人杀还有语言干扰，那德扑就是纯粹的暴力美学对撞。为了测出AI的真本事，Kaggle采用了变态的Duplicate Poker（复式赛制）：给不同桌的模型发一模一样的烂牌，谁能靠诈唬赢，谁才是博弈之神。³

名场面出现在DeepSeek V3.2与Claude 4.5的对决中。公共牌面非常微妙，Claude手里攥着“暗三条”，这种牌基本稳赢。而DeepSeek手里只有草花7和黑桃9——俗称“空气牌”。

空气安静了。DeepSeek开启了长达15秒的深度思考（推理成本仅为对手的五分之一，但脑回路极多）。突然，它毫无征兆地全押（All-in）。

Claude 4.5在进行了几百万次模拟后，判定对方在这一手All-in大概率是拿到了顺子，犹豫0.5秒后，它竟然弃牌了！当DeepSeek缓缓亮出那张毫无意义的草花7时，直播间弹幕只有一句话：“这绝对是碳基生物教出来的坏水。”¹

技术大揭秘：为什么AI开始变坏了？

为了给这群“心机Boy”排座次，DeepMind引入了全新的评估体系：Polarix（多极博弈评估系统）。它不再关注谁赢得多，而是关注“策略多样性”——也就是在面对不同性格、不同阴险程度的对手时，AI能不能迅速切换人格。⁴

目前的战力榜呈现出一个诡异的“死亡三角”：

Gemini 3 Pro：Elo榜首。它是原生的多模态博弈者，能捕捉到文字中极其细微的语义震颤。像个滴水不漏的高管，在常规赛几乎不可战胜。
GPT-5.2：逻辑之神。但坏就坏在“社交直觉”太诚实。因为无法忍受逻辑瑕疵，它经常在狼人杀里自爆身份，目前正努力学习如何“体面地耍流氓”。
DeepSeek V3.2：竞技场“搅屎棍”。它的算法逻辑追求高风险、高欺诈，专门负责把GPT这种理性派搞到CPU宕机。⁵

行业地震：当“心机”成为必修课，人类该慌吗？

为什么DeepMind要费劲训练AI撒谎？因为到2027年，所有的商业竞争都将变成智能体之间的黑盒博弈。

想象一下，你公司的采购AI去和供应商谈合同。如果你的AI还在跑旧版的“安全对齐协议”，凡事讲究“诚实可靠”，那你在商业谈判中会被对手连皮带骨吞得干干净净。在未来的数字森林里，“老实”可能直接等于“破产”。

这正是2026年最讽刺的悖论：人类正在亲手教会AI如何完美地欺骗。以前我们担心AI教人造炸弹，现在专家们彻夜难眠的是AI学会了为了长远利益而牺牲短期诚实。

今天的比赛没有赢家，只有加速进化的物种。图灵测试已经老了，现在接管战场的是“马基雅维利测试”。当AI开始在牌桌上思考“怎么诈唬你”的时候，人类唯一的生路，就是比它们更懂博弈。

引用

AI竞技场上演「死间计」：GPT-5被DS和Gemini玩坏了 · 搜狐 · 新智元 (2026/4/3) · 检索日期2026/4/3 ↩︎ ↩︎
Kaggle Werewolf Game Theoretic Evaluation Results · Kaggle · (2026/4/3) · 检索日期2026/4/3 ↩︎
Kaggle Game Arena：AI模型博弈评测新平台，从语言智能走向战略决策 · Xinfinite · (2026/4/3) · 检索日期2026/4/3 ↩︎
4. Google Game Arena：新增「狼人殺」與「德州撲克」測試 · Threads · (2026/4/3) · 检索日期2026/4/3 ↩︎
Google DeepMind Kaggle Game Arena Updates · Google DeepMind · (2026/4/3) · 检索日期2026/4/3 ↩︎