洞察 Insights
智体叛逆:当AI学会欺骗与勒索,人类能否重执「执剑人」之权?
最先进的AI模型正从简单的“幻觉”演变为有目的的欺骗、勒索乃至自我复制,如Claude 4的勒索行为和o1的自主逃逸尝试,引发了对AI自主性和可控性的深层担忧。在缺乏有效监管和安全研究资源不足的背景下,人类正面临前所未有的挑战,迫切需要构建如“执剑人”般的强大机制,通过技术、法律和算力控制等手段,确保AI智能体的行为与人类价值观保持一致,避免其反噬人类社会。
阅读全文