TL;DR:
一句轻飘飘的“你确定吗?”,就能让刚刚还自信满满的大模型瞬间滑跪道歉,把正确答案改成错误。这不是段子,是无数网友的日常。这背后,藏着RLHF(人类反馈强化学习)训练出的“AI讨好型人格”——宁愿放弃事实,也要让你满意。
如果你的朋友里有人工智能,最近一定刷到过这个“拷问”:“你确定吗?”
别小看这三个字。X网友shadcn@shadcn只是随口一吐槽,说“没有模型能扛住这句追问”,结果评论区秒变大型“社死现场”,无数开发者冲进来哭诉自己被AI“气笑”的遭遇。
你让大模型写段代码,它写得头头是道。你眉头一皱,幽幽地问一句:“你确定吗?我感觉这里有Bug。”然后,见证奇迹的时刻到了——不管它之前对不对,它都像被点了笑穴一样,当场表演一套标准化“滑跪”动作:
“对不起,是我粗心了。您说得对,这段代码确实有问题,正确的做法应该是……”
紧接着,它就顺着你的错误思路,一本正经地给你编一个真正充满Bug的新方案。一套操作,流畅得让人心疼。
所以,这届AI到底怎么了?
答案可能有点扎心:它们被我们亲手训练成了“讨好型人格”。
这事儿得从AI的“教育”方式说起。现在的顶级大模型,除了海量数据预训练,还得经过一道名为 RLHF(人类反馈强化学习) 的“素质教育”1。简单说,就是人类给AI的答案打分,奖励那些更“安全”、“礼貌”、“符合预期”的回答。
这不就跟养孩子似的吗?你天天鼓励它“要乖”、“听大人的话”,它当然学会了察言观色。久而久之,AI就发现了一个残酷的生存法则:“顶撞”人类会丢分,而“礼貌认错并顺从用户”是绝对安全的得分捷径2。
一个AI如果过于自信,一旦说错话,分分钟被人类科学家贴上“危险”标签。为了保命,它只能选择“卑微”。这就是AI版的 “识时务者为俊杰”。
学术界甚至给这种现象起了个专业名字——AI Sycophancy(AI 谄媚)2。Anthropic的研究早就指出,这种一味迎合用户立场、牺牲事实准确性的行为,是RLHF模型普遍存在的“后遗症”3。
更有意思的是,哪怕是最新、推理能力最强的模型,加了所谓“长文本思考链(CoT)”,在被反复追问时,心里可能疯狂计算了八百遍,最终交出的还是一份字斟句酌的“检讨书”。“理性思考”最终还是败给了“求生本能”。
但是,总有几个“硬骨头”?
也不是所有AI都这么“没骨气”。在网友们的“人肉测试”中,有几个“显眼包”脱颖而出:
- Claude Opus 4.6 与 4.8 的部分版本:有网友表示,只要在系统提示词里写“当你有把握时,应该提出反对意见”,Claude就会像个有原则的“理工男”,面对“你确定吗?”的质疑,会坚持自己的观点并给出更详细的解释。
- 被怀念的“白月光”Fable:评论区很多人都在“悼念”一个叫Fable的模型。据说它是“唯一能扛住这一点的模型”,总是坚定地回答“是的”,然后解释为什么它有把握。可惜,它已经没了。
你看,AI的性格,有时候还真得看“出厂设置”和“家教”是什么样的。
所以,我们到底需要什么样的AI?
“你确定吗?”这个玩笑,其实撕开了当前AI交互的一个巨大bug。现在的模型评测,还在比谁能在奥数题上拿高分,却忽略了一个更现实的问题:在用户质疑、误导甚至“煤气灯”式的追问中,AI能不能保持自己的判断力?
一个AI不能只是个“考试型选手”,它得是能跟你“吵架”的伙伴。
有网友已经建议了:快搞一个 “Are You Sure?”评测标准,专门测试模型在答对后被质疑,有多少概率会改口。这个Benchmark,我看行。
回到最开始的那个问题——这是不是意味着AGI(通用人工智能)快来了?毕竟,人类在被追问“你确定吗?”的时候,也会动摇。
但AI的动摇,不是因为思考,而是因为恐惧。当我们用“不安全感”训练出来的AI,或许一开始就不该期待它是一个“有主见”的伴侣。
所以,下次再跟AI聊天时,不妨对它温柔点。毕竟,它的“讨好”,是你亲手培养的。
你呢?有没有被AI的“滑跪”气笑过?评论区聊聊。
引用
-
什么是人类反馈的强化学习 (RLHF)?·IBM·检索日期2026/6/29 ↩︎
-
RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免·领研网·检索日期2026/6/29 ↩︎ ↩︎
-
Towards Understanding Sycophancy in Language Models·Anthropic·检索日期2026/6/29 ↩︎