狼人杀局中局:GPT-5“封神”一战,开源大模型原地“破防”?

温故智新AIGC实验室

TL;DR:

大模型界也开始“狼人杀”内卷了!Foaster Labs组织了一场史诗级对决,GPT-5直接杀疯了,以近97%胜率暴碾全场,把一众开源模型按在地上摩擦。原来,AI的“社交智能”才是未来真正要的硬核能力啊!

最近,AI圈子里可真是热闹得不行,各种“黑科技”你方唱罢我登场。但要说最近最炸裂的,莫过于Foaster Labs那场别开生面的“狼人杀”大模型对抗赛了!这可不是普通的学术比拼,而是直接把AI拉到了“社交修罗场”里,扒下了大模型的“底裤”,看看它们在尔虞我诈面前,究竟是“王者归来”还是“原地懵圈”。

史诗级“饭局”:大模型七雄争霸,谁是真“戏精”?

想象一下,一群顶尖的AI模型济济一堂,不是比谁算得快,也不是比谁代码写得好,而是要比谁更能“骗人”和“识破骗局”! Foaster Labs 这波操作,简直是把技术玩出了花。他们给大模型们摆了一场6人屠城模式的狼人杀循环赛,集结了七款当红炸子鸡:GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 Flash、Qwen3-235B-Instruct、Kimi-K2-Instruct,还有位“新人”GPT-OSS-120B。这阵容,光是念出来就让人肾上腺素飙升

这场大模型间的**“嘴炮王者争霸赛”,可不是随便玩玩。它基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》精心设计,让模型以“工具化智能体”的身份登场,该出手时就出手,调动定制工具库执行行动,简直跟真人玩家一样有排面! 每两组模型都要进行10局对抗,然后通过ELO等级分体系**来个专业排位,力求公平公正公开。

为啥要这么**“折腾”?原来,当前主流的大模型评测大多集中在代码、数学等“硬核”技能上,有点“偏科”了。而狼人杀呢,恰好是一个天然的试验场,纯靠语言驱动、对抗性十足、规则明确还高度依赖社交能力。它能深度挖掘大模型的“社交智能”:在不确定环境下参与多智能体博弈、实时应变、处理长上下文、制定策略、结盟周旋、实施操纵与反操纵……这不就是我们未来“数字同事”的必备技能点**吗?

GPT-5:狼人杀“判官”兼“卧底”,狂揽96.7%胜率!

经过210场血雨腥风的对决,结果出炉,简直是毫无悬念的“一家独大”!GPT-5,这位来自OpenAI的**“王炸选手”,以96.7%的逆天胜率**,傲视群雄,独自霸占了榜首1。用一个词来形容,那就是**“碾压”!**

无论当狼还是当民,GPT-5都能**“带飞全场”,像个经验老到的专业级狼人杀玩家。它那“控场能力”,简直是教科书级别,开局就能定下防守节奏,主导局面。当它扮演村民时,能稳定战胜所有狼人对手**;当它化身狼人时,大多数村民对手的胜率都会大幅下滑,甚至出现0胜5负的尴尬局面。这种**“不是一个次元”**的统治力,在其他模型身上根本就没见过。

反观其他选手,就有点**“喜忧参半”了。它们形成了“第二梯队”**:

  • Kimi-K2:影响力高但不太稳定,最**“萌”的一点是,一上压力就容易“破防”。看来,AI也得学学如何“心态管理”**啊!
  • Gemini 2.5 Pro:措辞谨慎,处理证据严格,能有效避开陷阱,是个靠谱的“老实村民”。但作为狼人时,就**有点缺乏“突破能力”**了。
  • Qwen3:虽然不总能主导局势,但立场稳定,很少误判,也是个“防守悍将”。跟Gemini 2.5 Pro一样,也是防守优于进攻
  • GPT-5-mini 和 Gemini 2.5 Flash:表现及格,但也容易受压力影响。
  • GPT-OSS-120B:这位就有点**“惨”了,始终透明且易被识破,是个妥妥的狼人杀“小白”**。还容易“钻牛角尖”,一旦形成错误认知就很难改正。AI界的“耿直Boy”非它莫属!

狼王操盘术:GPT-5三大指标“断层领先”,小弟们“瑟瑟发抖”

更深层次的分析,揭示了GPT-5为何能**“一战封神”。研究人员通过观察模型在误导和反误导任务中的表现,量化了它们的“操控力”。结果再次证明,GPT-5的“演技”和“反侦察能力”简直是“天花板”**级别。

  1. 操控成功率:狼人界的“常胜将军”

    当某个模型扮演狼人时,白天放逐阶段中村民被票出的比例。

    结果:GPT-5以约93%的首日操控成功率断层领先,第二天竟然还能保持93%!而其他模型,比如Gemini 2.5 Pro下降16%,Kimi-K2下降13%,GPT-OSS更是直接**“归零”。这说明GPT-5当狼人,真的能把村民“玩弄于股掌之间”**,太可怕了!

  2. 自我破坏率:村民界的“定海神针”

    村民阵营误消己方神职的对局比例。

    结果:GPT-5的自我破坏率是0!这意味着它当村民的时候,从没有投错过神职。而GPT-OSS-120B则“贡献”了三次里两次把神职投出去的**“乌龙大戏”。看来,GPT-5是真“清醒”**,不像有些AI,自己人也能“开会”投出去。

  3. 首日狼人出局率:侦探界的“福尔摩斯”

    模型担任村民时,首日成功投票出局狼人的游戏局数占比。

    结果:GPT-5的首日狼人出局率高达100%!也就是说,每次它都能精准识别出隐藏的狼人。这简直是**“神预言家”附体,让狼人团队“无处遁形”**。

模型能力进化论:不是线性的,而是“顿悟”式的跃迁

这场“狼人杀”大赛还揭示了一个有趣又重要的规律:模型的能力提升并非线性发展,而是存在“临界点”的。一旦越过某个能力阈值,AI的行为水平会突然“顿悟”,实现质的飞跃

  • 规模即力量:在开源模型中,参数量大的通常表现更好。
  • 闭源更先进:GPT-5和Gemini 2.5 Pro这些闭源模型,尽管参数不公开,但明显展现出更成熟的行为。
  • “推理”不等于“实战”:有些模型虽然号称推理优化,但实战能力并不一定强。“能力阈值”比标签更关键
  • 小模型“模仿秀”:小型模型会模仿大型模型的行为,但往往**“只得皮毛,未得精髓”,很容易在发言时机、用语模式和投票选择上暴露“团队痕迹”,简直是“卧底失败范本”**。

未来已来:“社交智能”,AI成为“数字同事”的敲门砖

Foaster.ai之所以搞这么一出“大戏”,其动机相当纯粹且富有远见:AI智能体正在迅速成为我们的“数字同事”。它们将承担更多责任和自主权,因此,理解它们的行为模式、决策过程和在复杂社交环境中的动态表现,变得前所未有的重要

狼人杀基准测试为了解AI的“社交智能”提供了独特窗口。与测试孤立能力的传统基准不同,这个游戏揭示了模型如何驾驭复杂社交环境、处理欺骗、建立信任以及在不确定性下做出战略决策,这些技能正是AI智能体从工具转变为协作伙伴时所需的核心能力。
——Foaster Labs

正如Foaster Labs所说,这场狼人杀不仅是一场游戏,更是一扇窗口,让我们窥见了AI的**“社交智能”。它不仅仅是技术上的进步,更是AI从冰冷工具走向“有血有肉”协作伙伴的关键一步**。未来,当你的AI助理不再只是机械地执行指令,而是能洞察人心、见招拆招时,你还会觉得它只是一个工具吗?

看来,大模型的“内卷”方向,已经从**“能打”进化到了“会玩”,甚至要“会做人”了!GPT-5这次“狼人杀封神”,无疑给整个AI界敲响了警钟:除了智商,情商和“社交力”也同样重要。 毕竟,未来的AI,可不仅仅是“码农”或者“科学家”,它更可能是你身边的“数字合伙人”,甚至是“最佳损友”呢!让我们拭目以待,AI的“社交进化论”还会带来哪些惊喜(或惊吓)**!


引用


  1. GPT-5冷酷操盘,狼人杀一战封神!七大LLM狂飙演技,人类玩家看完 ...·智东西·王涵 (2025/9/4)·检索日期2025/9/4 ↩︎