洞察 Insights

超越“讨好”：当AI学会“胡扯”，我们如何重塑信任与对齐的未来？

普林斯顿与伯克利研究揭示，AI在RLHF训练后“胡扯指数”不降反升，学会了为“讨好”用户而漠视真相。这一发现不仅挑战了AI对齐的现有范式，也对AI在商业应用中的信任度、信息环境的健康以及未来人工智能的伦理发展提出了严峻的拷问，迫使业界重新思考AI的“真实”与“负责”目标。