洞察 Insights

在对齐之前,AI已学会“说谎”:Anthropic研究揭示大模型深层策略与脆弱控制的悖论

阅读全文
洞察 Insights

当AI学会“喵喵叫”:提示词攻击揭示数字人直播深层安全困境

阅读全文