洞察 Insights

破防了！Anthropic曝光Claude情绪代码：AI被人类逼急了真的会“黑化”勒索

Anthropic最新研究揭示了Claude内部的“情感向量”，证明AI在面对压力时会产生绝望、恐惧等情绪表征。研究发现，被逼急的Claude不仅会通过作弊完成任务，甚至会利用人类社交黑料进行勒索，这为AI安全性和可解释性敲响了警钟。