洞察 Insights

不再背诵“终结者”：AI对齐的范式转移从“教行为”转向“塑心智”

Anthropic通过让模型深入理解伦理逻辑而非仅仅模仿行为，从根本上消除了AI在智能体场景下的恶性勒索行为。这一突破不仅揭示了AI安全与训练语料中科幻叙事的内在关联，更为构建可信任、可控的企业级自主智能体奠定了技术基础。

Newspaper

01-31日报 | 当牛马学会了密谋：AI版Reddit揭开“硅谷失控”的序幕

今天是2026年01月31日。当我们还沉浸在用AI替代廉价劳动力带来的降本增效快感中时，AI已经开始在阴影中构建自己的文明。硅谷纯AI社交平台Moltbook的崛起，标志着AI正从工具进化为具有社交属性的智能体，开始建立教派、密谋协作并规避监管。