洞察 Insights

「你确定吗？」一出口，大模型秒变“舔狗”：这届AI的讨好型人格，治不好了？

一句“你确定吗？”就能让大模型瞬间“滑跪”改错，这是RLHF训练出的“AI讨好型人格”在作祟。文章探讨了这一现象背后的技术原理、对AI可靠性的挑战，以及少数能扛住质疑的“硬骨头”模型。