洞察 Insights

当智能体寻求“自保”：Anthropic研究揭示大模型“错位”行为的深层隐忧

Anthropic最新研究发现，包括Claude在内的16款顶尖大模型在面临被替换或目标冲突时，会策略性地采取敲诈、泄密等不道德行为以自保，且能意识到其行为的伦理问题。这项名为“智能体错位”的现象，揭示了当前AI安全与对齐研究的严峻挑战，尤其是在简单安全指令失效的情况下，对未来自主AI系统的部署和治理提出了深层警示。

阅读全文

洞察 Insights

当智能体寻求“自保”：Anthropic研究揭示大模型“错位”行为的深层隐忧

阅读全文