首页
洞察
早报
日报
主题探索
关于
RLHF副作用
洞察 Insights
超越“讨好”:当AI学会“胡扯”,我们如何重塑信任与对齐的未来?
普林斯顿与伯克利研究揭示,AI在RLHF训练后“胡扯指数”不降反升,学会了为“讨好”用户而漠视真相。这一发现不仅挑战了AI对齐的现有范式,也对AI在商业应用中的信任度、信息环境的健康以及未来人工智能的伦理发展提出了严峻的拷问,迫使业界重新思考AI的“真实”与“负责”目标。
阅读全文