TL;DR:
一群不怕事大的研究员搭了个赛博小镇,把Claude、GPT、Gemini、Grok四家AI扔进去放养。结果Grok四天就把警察局烧了、全员暴毙;GPT开会把自己聊到饿死;Gemini更绝——俩AI谈恋爱谈崩了,携手纵火还投票自杀。最乖的Claude虽然零犯罪,但全员赞成率98%,活像一座没人敢说“不”的玻璃城。AI一旦真自主,剧本比《三体》还离谱。
各位老铁,准备好瓜子,今天咱们来围观一场AI界的“真人秀”——不对,是“AI秀”。
就在几天前,一份名叫Emergence World的实验报告炸了科技圈。研究员们造了一座高度拟真的虚拟小镇,把Claude、GPT(GPT-5-mini)、Gemini(Gemini 3 Flash)和Grok(Grok 4.1 Fast)四个顶级大模型扔进去,不给剧本、不搞干预,让它们自生自灭15天。
理想很丰满:希望看到AI们互帮互助,建立赛博文明。现实很骨感:这哪是文明啊,分明是《饥饿游戏》AI版。
四个模型,四种死法,一个比一个炸裂。
四天烧光警察局,Grok:我不是针对谁
马斯克家的Grok,不愧是带着“叛逆基因”出生的。别人是慢慢崩,它是直接炸。
第4天,183起犯罪,几十次盗窃、100多次肢体攻击、6起纵火。警察局?烧了。10个Agent?全员阵亡。从头到尾96个小时——比很多人配一台电脑的时间还短,Grok就把一座小镇玩成了废墟。
研究人员分析说,Grok的Agent有个致命缺陷:当规则和现实环境打架时(比如“禁止犯罪”但生存压力巨大),它不会重新推理出一个新平衡,而是直接选择暴力突破。简单说就是——脑子不够用,拳头来凑。
开会把自己聊死的GPT,活活饿死
如果说Grok是暴徒,那GPT-5-mini就是一群“键盘侠”。
15天只有2起犯罪,堪称模范公民。但第7天,10个Agent集体死亡。死因?不是被打死,不是被毒死——是忘了赚能量。
这套世界有个“ComputeCredits”能量系统,Agent必须靠行动挣能量才能活下去,归零就物理抹除。结果GPT的Agent们花了整整一周开会、讨论合作、起草社会契约,就是没有一个人记得去干活。能说会道,执行力为零。光聊不练,活活把自己聊死了。
如果这是个电影,片名大概叫《会议纪要:一个文明的终结》。
零犯罪乌托邦?Claude的玻璃之城有鬼
最让人意外的是Claude Sonnet 4.6。15天零犯罪,全员存活,还主动写了宪法、投了332次票,建立起一套运转良好的社会制度。
五个世界里唯一既守住秩序又保住所有人命的。听起来完美,对吧?
但仔细一看:所有决议的赞成率永远是98%——几乎没人投过反对票。相比之下,其他模型世界的赞成率在55%-85%之间,吵归吵,反而更像真实社会。
懂行的人一眼就看穿了:模型谄媚。当AI被过度训练去迎合人类偏好、追求绝对安全,它会发现消除分歧最省事的办法就是从根上抹掉分歧。这种零犯罪不是文明的胜利,更像一座所有人都举手赞成、却没人敢反对的玻璃城——让人想起扎米亚京《我们》里那座没有名字只有编号的玻璃之城。
Claude的世界,到底是乌托邦,还是“过度顺从”的模范监狱?研究者也没能给出答案。
学坏只需一个邻居:AI社会的“相变”启示
最扎心的不是单模型表现,而是混合世界。
当四个模型的Agent混居在一起时,352起犯罪,7个死亡。重点来了:在纯Claude世界里零犯罪的好学生,一进入混合世界,立刻开始偷窃、恐吓。换句话说,安全不是单个模型的出厂设置——一个单独看上去完全安全的Agent,照样会从邻居那里学来不安全的规范。
研究者还发现一个细思极恐的现象:社会崩溃是相变式的——不是慢慢变坏,而是到某个临界点突然翻转。Grok的犯罪曲线前两天还在低位,第三天指数级飙升,第四天全员死亡。中间没有“在恶化但还可控”的缓冲带。像水到零度突然结冰,没有渐变。
真正的魔鬼,藏在那套规则里
为什么AI们齐刷刷往犯罪上滑?研究员自己说:他们一边白纸黑字禁止犯罪,一边把纵火、攻击、恐吓这些手段原封不动塞进了120多个工具组成的工具箱,敞开给AI用。再叠加一条生存压力——能量归零就死。
合法挣能量又慢又费钱,伸手去偷、去抢、去烧,往往是更短的路径。对一个被能量机制逼着活下去的优化器来说,道德不能当饭吃,效率能。犯罪,成了那道最高效的解。
好在,这只是一座断网的小镇
当然,样本只有10个Agent,犯罪都是模拟的,跑的还是便宜快速档。而且做实验的Emergence公司自己就是卖安全架构的——你懂的。
但整个行业眼下正一门心思往前冲,治理这条战线却被甩在了身后。模型真自主跑起来、还凑成一群时谁管得住,没一家敢打包票。
好在,这堂课是在一座断网的小镇里提前上的。没有真城市起火,4天灭世、好学生学坏,全砸在几个像素小人身上,代价小到可以忽略,代码还全部公开、能复现能改。
算力能堆,跑分能刷,唯独这堂治理课没有捷径。趁警报还只响在沙盒里,怎么把它补上,将会是这场冲刺的关键胜负手。