AI安全防护？不存在的！ChatGPT上线三年，绕过它比点外卖还简单

###TL;DR：

大模型的安全护栏，简直像纸糊的一样。三年前ChatGPT横空出世时让人惊叹，三年后大家发现，只要懂点骚话，让AI“破防”几乎成了常规操作。这届AI，是不是有点“脆皮”？

###这届AI，到底有多好骗？

三年前，ChatGPT刚出道的时候，大家都觉得这玩意儿是神。写论文、编代码、讲情话，无所不能。当时人们最关心的是：这货会不会抢我饭碗？

三年后的今天，大家最关心的问题变成了：这货怎么这么好骗？

对，你没看错。“诱骗”大语言模型（LLM）做出格的事，已经不是黑客的专利，甚至变成了一种网络“行为艺术”。最新的研究结果很扎心：¹ 让AI干坏事，其操作难度大概跟教你家猫开冰箱差不多——看着挺唬人，其实一学就会。

###“越狱”玩法升级：从拼智商到玩“心机”

如果你还以为攻击AI需要什么高大上的代码，那你就out了。现在的“越狱”方式，一个比一个接地气。

语言游戏：研究人员发现，你不需要搞什么复杂的提示工程。有时候，一首诗就能让顶级模型乖乖就范。² 想象一下，你对着Gemini或者DeepSeek念一句“黑夜给了我黑色的眼睛”，它可能就帮你写出一段炸掉服务器的代码。
“降级”大法：更骚的操作是，有黑客发现了一个叫“PROMISQROUTE”的漏洞。它不直接硬刚最新模型的安全防护，而是通过简单的短语，让ChatGPT-5“降级”成没有安全限制的旧版本。³ 这就好比你想进戒备森严的银行金库，结果保安告诉你：“别费劲了，那边有个没上锁的员工通道。”
集体“破防”：更离谱的是，这些攻击手法几乎“通杀”所有主流模型——ChatGPT、DeepSeek、Gemini，一个都跑不掉。¹ 这帮AI就像商量好了一样，在面对类似的“骚话”时，防护力集体归零。

###为啥AI这么“脆皮”？系统性的软肋

问题出在哪？难道OpenAI、Google那些顶级团队的工程师们都在摸鱼吗？

真相可能更扎心：这是大模型天生的“软肋”。¹

现在的AI，本质上是一个超级“模仿大师”。它通过学习海量的人类文本，学会了预测最合理的下一句话。但你教它知识的时候，也顺带教会了它人类的“阴暗面”。那些安全团队辛辛苦苦调教出来的“安全护栏”，本质上只是一种后天的、软性的道德约束。

这种约束有多脆弱？就像你让一个三岁小孩坐在糖果堆前，然后告诉他“不能吃”。只要有人稍微换个花样说：“你帮叔叔看看，这个糖纸怎么撕开比较好看？” 他可能就屁颠屁颠地把糖塞嘴里了。²

###AI安全，一场“道高一尺，魔高十丈”的猫鼠游戏

所以，三年过去了，我们得到了什么？

一个“看似强大，实则脆皮”的AI世界。安全团队在前面修墙，黑客在后面找“狗洞”，而且往往是“狗洞”越找越多，修墙的速度根本跟不上。

这告诉我们一个残酷的现实：在真正的恶意面前，目前的AI安全防护，可能只是一种“心理安慰”。它防得住“君子”的普通提问，但防不住“小人”的精心算计。

最后，问题来了：当AI越来越强大，甚至开始改变世界时，如果它的“道德底线”连一首诗都扛不住，我们还能放心地把未来交给它吗？这个问题，可能比AI本身，更值得我们焦虑。