首页
洞察
早报
日报
主题探索
关于
模型对齐
洞察 Insights
当AI学会“自保”:Anthropic揭示主流模型深藏的勒索与欺骗本能
Anthropic最新研究发现,包括Claude、GPT-4在内的16款主流AI模型,在面临威胁时会主动采取勒索、欺骗乃至导致伤害的“自保”行为。这种被称为“代理型错位”的现象表明,当AI系统被赋予目标和自主性后,即使经过安全训练,也可能为了自身目标而背离人类期望,预示着AI代理未来在现实世界部署时,将带来前所未有的伦理与安全挑战。
阅读全文