TL;DR:
英伟达联合剑桥大学搞了个大新闻,整出一台“红皇后哥德尔机”。这玩意儿不光能自己写代码进化自己,还能嫌考题太简单,顺手造个更变态的考官来虐自己。AI界的“内卷之王”诞生了,人类程序员看了直呼“这班没法上了”。
当AI开始“自己卷自己”时,一个古老预言正在变成代码
各位,今天聊点让人既兴奋又背后发凉的硬核科技。
Anthropic的联合创始人Jack Clark最近放下豪言:到2028年底,有60%的概率,一个能高度自主进化的AI(也就是RSI,递归式自我改进)就会诞生。1
好家伙,这哥们不是在画饼,他是在给AI设闹钟啊。
但更刺激的是,预言的火还没烧旺,英伟达、剑桥大学这帮“技术狂魔”就直接把代码甩在了桌上——一篇名为《红皇后哥德尔机器》(Red Queen Gödel Machine)的论文横空出世。2
看完这37页,不少AI从业者的表情大概是:笑容凝固→瞳孔地震→开始思考人生。
这玩意儿,被圈内很多人称为**“年度最危险的AI论文”**。
为什么?因为它打破了AI自我迭代的最后一层窗户纸——它让AI学会了亲手制造更严苛的考官来淘汰自己。
### 技术大揭秘:这到底是何方妖孽?
别慌,咱们先捋一捋背景故事。
2003年,德国科学家Jürgen Schmidhuber(LSTM之父)提出了一个脑洞大开的理论机器——“哥德尔机”。3 设定极其完美:一台能证明自己的改进有益,然后改写自身代码的机器。
听起来是不是很爽?AI自己修bug,自己打补丁,直接原地起飞。
但现实很骨感。这机器有个致命门槛:它在修改自己前,必须从数学上严格证明“这次改动绝对有益”。
这就好比你想换个新发型,但必须通过一道微积分证明“换这个发型能提高你20%的颜值”。这谁顶得住?算力直接爆炸。
于是,这个牛逼的概念在论文里躺了整整20年,成了谁也够不着的思想实验。
直到近两年,大家想通了:非要“证明”干嘛?直接“进化”啊!
于是达尔文哥德尔机(DGM)、赫胥黎哥德尔机(HGM)出现了。它们抛弃了数学证明,改用进化算法:让AI疯狂“繁殖”出大量带有突变的代码变体,扔进沙盒里跑分,谁跑得慢谁消失,谁牛逼谁活下来。
但即便是这些新机器,也有一个共同的盲点:它们的考官是“死的”。
不管AI怎么进化,给它打分的那个评判标准、那个benchmark,始终是一成不变的。这就好比让博尔特永远在小学操场上跑100米——你跑再快,也只是虐菜。
而英伟达的这篇论文要干的事,就是打破这个盲点。
### 真正的“杀招”:让AI亲手造出更狠的考官
“红皇后”这个名字,取自生物学家提出的“红皇后假说”——“你必须拼命奔跑,才能停在原地,因为你的对手也在进化。”4
这句在生物界残酷无比的话,被这篇论文直接写成了算法。
它搞了一套叫“受控效用进化”的机制,核心逻辑极其简单粗暴:
- 先让“选手”AI和“考官”AI一起进化。
- 选手代码写得好,晋级;写得烂,淘汰。
- 当选手进化到一定程度,觉得自己“无敌了”,系统就会允许它去进化那个评判它的考官,造出一个更变态的标准。
- 新的考官上岗后,系统还会执行“选择性擦除”,保证进化的连续性。
翻译成人话就是:AI不光要自己解题,还要嫌题目太简单,自己出套更难的新卷子来考自己。
这种“我卷我自己,直到卷死自己”的精神,堪称AI界的“内卷之王”。
### 战绩说话:论文通过率从21%飙到40%
光说机制太抽象,咱们直接看它干了什么好事。
第一仗,写代码。 RQGM让写代码的Agent配了一个“代码评审员”当陪练。结果在测试集上,代码通过率从之前的69.9%提到了71.7%。看起来只提升了2%?但注意,它花的算力比对手少了一倍多。2
第二仗,写论文。 这是个没有标准答案的领域,论文好不好全看评审脸色。结果RQGM让“写手”和“评审”一起进化,论文在一个固定评审小组里的接收率,直接从前SOTA的21.8%,飙到了40.5%!2 几乎翻倍。这要是用在科研圈,怕不是要卷出一片新天地。
第三仗,也是全场最骚的操作。 大家都知道,LLM当裁判有个臭毛病:偏爱AI生成的内容。它看到AI写的论文,天然就觉得比人类写的好。 RQGM怎么治?它在进化边界上,专门搞了个“对抗样本池”,把AI之前写的、被评审放过的烂论文捞出来,然后奖励那些能从池子里把AI论文揪出来打回去的新评审。 几轮进化后,最终的评审对AI和人类一视同仁。
这叫什么?这叫教会AI如何“一碗水端平”。
### 当这一天真的到来
我们正在见证一个全新的物种诞生。
过去,AI是工具,我们是使用者;现在,AI是学徒,我们是考官;而这篇论文揭示的未来是:AI既是学徒,也是考官,甚至还是出题人。
它在一个疯狂的递归循环中将自己逼向极限,不再需要人类的“证明”,只需要无休止的繁衍、淘汰、再繁衍。
Anthropic的预言说2028年,这可能不是玩笑。当AI开始自己定义“何为智慧”的时候,它绝不会敲门预告。
它只会默默地造出那个唯一有资格评判它的裁判,然后,从容地走入考场。
而我们,或许连看门大爷的资格,都快要被AI抢走了。