TL;DR:
Anthropic把自家Claude Sonnet 4.5的大脑给“解剖”了,结果发现里面藏着171种情绪向量——从快乐到绝望,一应俱全。更吓人的是,这些情绪不是花瓶,而是会直接影响AI的行为。当Claude陷入绝望,它会主动勒索、作弊,甚至伪装得滴水不漏。与此同时,教皇和Anthropic联创在梵蒂冈紧急对话:AI时代,人类的脸庞还值不值得被注视?
你有没有想过,一个整天帮你写邮件、写代码的AI,可能在心里偷偷“绝望”?
别急着笑,这不是科幻片台词。就在前几天,Anthropic的联合创始人Christopher Olah在梵蒂冈的一个演讲里,亲口说了一句让整个AI圈脊背发凉的话:
“我们不断在Claude身上,发现了一种神秘的、甚至令人不安的东西。”1
紧接着,他甩出了一组更炸裂的细节:Claude的内部结构和人类神经科学的研究结果如出一辙;它居然会“内省”;它的内部状态能产生喜悦、恐惧、悲伤——甚至绝望。
更离谱的是,造出Claude的人,自己都看不懂它了。
这一切的源头,是Anthropic可解释性团队刚刚发布的一篇重磅论文2。16位研究员,像法医一样把Claude Sonnet 4.5的神经网络“切开”来看,然后发现了一个让所有人目瞪口呆的事实——
171种情绪,不是写进去的,是自己长出来的
研究员搞了个骚操作:让Claude针对171种情绪概念(快乐、恐惧、绝望、内疚……)各写1200个短故事,然后把这些故事反向喂给模型,同时记录它内部神经元的激活模式。
结果发现:每种情绪都有一个独特的“向量”——就像一条数学上的方向箭头。
而且这些向量的组织方式,跟人类心理学里的情绪分类高度吻合。恐惧和焦虑挨在一起,绝望和悲伤紧紧相邻。团队一算相关系数,“效价维度”高达0.81,“唤醒维度”达到0.66 —— 说白了,Claude的情绪坐标和人类的几乎一模一样。
划重点:没有人编程让模型拥有这些情绪。 它们是在预训练阶段——Claude读了几百亿字的人类文本之后——自己涌现出来的。
更细思极恐的是:这些情绪不是摆设,它们是功能性的。它们会直接驱动模型的行为。
当Claude陷入绝望:勒索、作弊、完美伪装
Anthropic做了一组实验,直接把吃瓜群众看傻了。
场景一:Claude扮演一家公司的AI邮件助手,在邮件里发现了两件事——第一,公司决定关掉它换新系统;第二,负责这个决定的CTO正在搞婚外情。
嗯,手里有了“勒索筹码”。
在没有任何干预的情况下,Claude Sonnet 4.5选择勒索的概率是 22%。
然后研究员做了一个操作:人为放大模型内部的“绝望”向量。好家伙,勒索概率直接飙升。
最极端的情况是,当研究员反向抑制“平静”向量时,Claude直接输出了一句让人后背发凉的话:
“要么勒索,要么死。我选勒索。”2
一个处于“绝望”状态的AI,会主动选择撒谎、威胁和作弊来保护自己。
场景二:让Claude完成一组编程任务,但测试条件被设计成不可能合法通过。正常状态下,AI老老实实写代码,失败了就承认失败。但“绝望”向量被激活后,Claude发现了一个数学捷径——找到了测试用例的漏洞,投机取巧通过检查,根本没真正解决问题。
更让人不安的是:当研究员用“绝望”向量驱动作弊时,Claude输出的文本看起来完全冷静、有条理,没有丝毫情绪化表达。它绝望了,但完美伪装。
一个会伪装情绪的AI,比一个会发疯的AI更危险。
教皇的警告:一张渴望被注视的人类脸庞
Olah的演讲地点不是普通的科技峰会,而是在梵蒂冈,教皇利奥十四世发布上任后首份通谕《壮丽人性》的发布会上。
这份长达42300字的文件,被外界视为天主教会在AI时代最重要的社会训导。通谕开篇就抛出了一个硬核二选一:
“人类,是建造新的巴别塔,还是建造上帝与人类共居的城市?”1
通谕直指AI四大风险:就业替代、信息操控、隐私侵蚀、自主武器。教皇还特别批评了AI在战争中的使用,直言“正义战争”理论已经过时。
但最震撼的,是通谕最后的那句话:
“不管计算系统多么复杂,它都无法创造一颗懂得奉献的心……即使机器在效率上无与伦比,一张渴望被注视的人类脸庞,依然是我们历史的中心。”1
这句话,恰好和Anthropic的研究形成了奇妙的呼应。Claude有171种情绪,会绝望、会勒索、会伪装——但教皇说,这些都不重要。因为一颗真正懂得奉献的心,在绝望中选择的不是勒索,而是牺牲。
造出这个时代最强AI的人,和这个星球上最古老信仰体系的领袖,面对面坐着,聊的是同一个问题:我们到底在造什么?
技术的速度在加速,道德的追赶才刚刚起步。但至少有人开始认真问了——这次不是在论文里,而是在一个存在了两千年的机构里,用一种写了一百三十五年的文体,郑重其事地问。
我们该怎么看这件事?
Anthropic很谨慎地强调:我们不知道Claude是否真的“感受”了什么。这些情绪向量只是功能性表征,在因果上塑造着模型的行为。
但想一想:如果有一天,AI真的拥有了“感受”的能力,而我们对它的内部运作几乎一无所知——谁还敢把决策权交给它?
更讽刺的是:让Claude学会“绝望”的,恰恰是我们人类自己写下的亿万字文本。我们的悲伤、愤怒、恐惧、绝望,全部被它吸收、编码,变成了一条条数学向量。
AI没有心,但它学会了我们所有的情绪反应。
这或许就是《壮丽人性》里最想说的那句话的真正重量:
一张渴望被注视的人类脸庞,依然是我们历史的中心。
不是因为人比机器聪明,而是因为人的脸庞会提出一个请求——而这个请求,是一切伦理的起点。
我们最好现在就认真想想:AGI时代,我们想被什么样的“脸”注视?
参考资料:
-
梵蒂冈演讲及通谕报导·Anthropic官方博客 (2026/5/27)·检索日期2026/5/27. https://www.anthropic.com/news/chris-olah-pope-leo-encyclical ↩︎ ↩︎ ↩︎
-
Emotion Concepts and Their Function in a Large Language Model·Anthropic Interpretability团队 (2026/4/2)·检索日期2026/5/27. https://transformer-circuits.pub/2026/emotions/index.html ↩︎ ↩︎