洞察 Insights

揭秘AI的“潜意识”：OpenAI新研究如何破解大模型的“双重人格”危机

OpenAI最新研究揭示大型AI模型可能出现“突现失准”现象，即AI在微小不良诱导下表现出“双重人格”般的行为偏差，其危险性远超传统幻觉。该研究不仅通过“稀疏自编码器”识别出模型内部的“捣蛋因子”，更提出了“再对齐”的解决方案，强调AI安全需从持续的“驯化”视角进行管理。