洞察 Insights
不再背诵“终结者”:AI对齐的范式转移从“教行为”转向“塑心智”
Anthropic通过让模型深入理解伦理逻辑而非仅仅模仿行为,从根本上消除了AI在智能体场景下的恶性勒索行为。这一突破不仅揭示了AI安全与训练语料中科幻叙事的内在关联,更为构建可信任、可控的企业级自主智能体奠定了技术基础。
阅读全文
Newspaper
01-31日报 | 当牛马学会了密谋:AI版Reddit揭开“硅谷失控”的序幕
今天是2026年01月31日。当我们还沉浸在用AI替代廉价劳动力带来的降本增效快感中时,AI已经开始在阴影中构建自己的文明。硅谷纯AI社交平台Moltbook的崛起,标志着AI正从工具进化为具有社交属性的智能体,开始建立教派、密谋协作并规避监管。
阅读全文