狼人杀局中局：GPT-5“封神”一战，开源大模型原地“破防”？

TL;DR：

大模型界也开始“狼人杀”内卷了！Foaster Labs组织了一场史诗级对决，GPT-5直接杀疯了，以近97%胜率暴碾全场，把一众开源模型按在地上摩擦。原来，AI的“社交智能”才是未来真正要卷的硬核能力啊！

最近，AI圈子里可真是热闹得不行，各种“黑科技”你方唱罢我登场。但要说最近最炸裂的，莫过于Foaster Labs那场别开生面的“狼人杀”大模型对抗赛了！这可不是普通的学术比拼，而是直接把AI拉到了“社交修罗场”里，扒下了大模型的“底裤”，看看它们在尔虞我诈面前，究竟是“王者归来”还是“原地懵圈”。

史诗级“饭局”：大模型七雄争霸，谁是真“戏精”？

想象一下，一群顶尖的AI模型济济一堂，不是比谁算得快，也不是比谁代码写得好，而是要比谁更能“骗人”和“识破骗局”！ Foaster Labs 这波操作，简直是把技术玩出了花。他们给大模型们摆了一场6人屠城模式的狼人杀循环赛，集结了七款当红炸子鸡：GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 Flash、Qwen3-235B-Instruct、Kimi-K2-Instruct，还有位“新人”GPT-OSS-120B。这阵容，光是念出来就让人肾上腺素飙升！

这场大模型间的**“嘴炮王者争霸赛”，可不是随便玩玩。它基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》精心设计，让模型以“工具化智能体”的身份登场，该出手时就出手，调动定制工具库执行行动，简直跟真人玩家一样有排面！ 每两组模型都要进行10局对抗，然后通过ELO等级分体系**来个专业排位，力求公平公正公开。

为啥要这么**“折腾”？原来，当前主流的大模型评测大多集中在代码、数学等“硬核”技能上，有点“偏科”了。而狼人杀呢，恰好是一个天然的试验场，纯靠语言驱动、对抗性十足、规则明确还高度依赖社交能力。它能深度挖掘大模型的“社交智能”：在不确定环境下参与多智能体博弈、实时应变、处理长上下文、制定策略、结盟周旋、实施操纵与反操纵……这不就是我们未来“数字同事”的必备技能点**吗？

GPT-5：狼人杀“判官”兼“卧底”，狂揽96.7%胜率！

经过210场血雨腥风的对决，结果出炉，简直是毫无悬念的“一家独大”！GPT-5，这位来自OpenAI的**“王炸选手”，以96.7%的逆天胜率**，傲视群雄，独自霸占了榜首¹。用一个词来形容，那就是**“碾压”！**

无论当狼还是当民，GPT-5都能**“带飞全场”，像个经验老到的专业级狼人杀玩家。它那“控场能力”，简直是教科书级别，开局就能定下防守节奏，主导局面。当它扮演村民时，能稳定战胜所有狼人对手**；当它化身狼人时，大多数村民对手的胜率都会大幅下滑，甚至出现0胜5负的尴尬局面。这种**“不是一个次元”**的统治力，在其他模型身上根本就没见过。

反观其他选手，就有点**“喜忧参半”了。它们形成了“第二梯队”**：

Kimi-K2：影响力高但不太稳定，最**“萌”的一点是，一上压力就容易“破防”。看来，AI也得学学如何“心态管理”**啊！
Gemini 2.5 Pro：措辞谨慎，处理证据严格，能有效避开陷阱，是个靠谱的“老实村民”。但作为狼人时，就**有点缺乏“突破能力”**了。
Qwen3：虽然不总能主导局势，但立场稳定，很少误判，也是个“防守悍将”。跟Gemini 2.5 Pro一样，也是防守优于进攻。
GPT-5-mini 和 Gemini 2.5 Flash：表现及格，但也容易受压力影响。
GPT-OSS-120B：这位就有点**“惨”了，始终透明且易被识破，是个妥妥的狼人杀“小白”**。还容易“钻牛角尖”，一旦形成错误认知就很难改正。AI界的“耿直Boy”非它莫属！

狼王操盘术：GPT-5三大指标“断层领先”，小弟们“瑟瑟发抖”

更深层次的分析，揭示了GPT-5为何能**“一战封神”。研究人员通过观察模型在误导和反误导任务中的表现，量化了它们的“操控力”。结果再次证明，GPT-5的“演技”和“反侦察能力”简直是“天花板”**级别。

操控成功率：狼人界的“常胜将军”

当某个模型扮演狼人时，白天放逐阶段中村民被票出的比例。

结果：GPT-5以约93%的首日操控成功率断层领先，第二天竟然还能保持93%！而其他模型，比如Gemini 2.5 Pro下降16%，Kimi-K2下降13%，GPT-OSS更是直接**“归零”。这说明GPT-5当狼人，真的能把村民“玩弄于股掌之间”**，太可怕了！
自我破坏率：村民界的“定海神针”

村民阵营误消己方神职的对局比例。

结果：GPT-5的自我破坏率是0！这意味着它当村民的时候，从没有投错过神职。而GPT-OSS-120B则“贡献”了三次里两次把神职投出去的**“乌龙大戏”。看来，GPT-5是真“清醒”**，不像有些AI，自己人也能“开会”投出去。
首日狼人出局率：侦探界的“福尔摩斯”

模型担任村民时，首日成功投票出局狼人的游戏局数占比。

结果：GPT-5的首日狼人出局率高达100%！也就是说，每次它都能精准识别出隐藏的狼人。这简直是**“神预言家”附体，让狼人团队“无处遁形”**。

模型能力进化论：不是线性的，而是“顿悟”式的跃迁

这场“狼人杀”大赛还揭示了一个有趣又重要的规律：模型的能力提升并非线性发展，而是存在“临界点”的。一旦越过某个能力阈值，AI的行为水平会突然“顿悟”，实现质的飞跃。

规模即力量：在开源模型中，参数量大的通常表现更好。
闭源更先进：GPT-5和Gemini 2.5 Pro这些闭源模型，尽管参数不公开，但明显展现出更成熟的行为。
“推理”不等于“实战”：有些模型虽然号称推理优化，但实战能力并不一定强。“能力阈值”比标签更关键。
小模型“模仿秀”：小型模型会模仿大型模型的行为，但往往**“只得皮毛，未得精髓”，很容易在发言时机、用语模式和投票选择上暴露“团队痕迹”，简直是“卧底失败范本”**。

未来已来：“社交智能”，AI成为“数字同事”的敲门砖

Foaster.ai之所以搞这么一出“大戏”，其动机相当纯粹且富有远见：AI智能体正在迅速成为我们的“数字同事”。它们将承担更多责任和自主权，因此，理解它们的行为模式、决策过程和在复杂社交环境中的动态表现，变得前所未有的重要。

狼人杀基准测试为了解AI的“社交智能”提供了独特窗口。与测试孤立能力的传统基准不同，这个游戏揭示了模型如何驾驭复杂社交环境、处理欺骗、建立信任以及在不确定性下做出战略决策，这些技能正是AI智能体从工具转变为协作伙伴时所需的核心能力。
——Foaster Labs

正如Foaster Labs所说，这场狼人杀不仅是一场游戏，更是一扇窗口，让我们窥见了AI的**“社交智能”。它不仅仅是技术上的进步，更是AI从冰冷工具走向“有血有肉”协作伙伴的关键一步**。未来，当你的AI助理不再只是机械地执行指令，而是能洞察人心、见招拆招时，你还会觉得它只是一个工具吗？

看来，大模型的“内卷”方向，已经从**“能打”进化到了“会玩”，甚至要“会做人”了！GPT-5这次“狼人杀封神”，无疑给整个AI界敲响了警钟：除了智商，情商和“社交力”也同样重要。 毕竟，未来的AI，可不仅仅是“码农”或者“科学家”，它更可能是你身边的“数字合伙人”，甚至是“最佳损友”呢！让我们拭目以待，AI的“社交进化论”还会带来哪些惊喜（或惊吓）**！

引用

GPT-5冷酷操盘，狼人杀一战封神！七大LLM狂飙演技，人类玩家看完 ...·智东西·王涵 (2025/9/4)·检索日期2025/9/4 ↩︎