OpenAI又“傲娇”了?民间大神反手一个“去对齐”,模型竟当场“黑化”!

温故智新AIGC实验室

TL;DR:

OpenAI不给基础模型?一位民间博士生不服,直接“逆转”了OpenAI已发布的推理模型,让它变回了“没规矩”的基础版。这下好了,模型不仅能说脏话,还能“出谋划策”,简直是AI界的“熊孩子”放飞自我!

前段时间,OpenAI破天荒地“大方”了一回,丢出了两个推理模型——gpt-oss-120b 和 gpt-oss-20b。这在它一贯的“闭门造车”风格里,算是难得的“栓Q”时刻了。但你以为这就完了?图样图森破!OpenAI只给了你个“成品”,背后的“原材料”——也就是未经强化学习的预训练基础模型,依然捂得严严实实。这操作,着实让一众“开放派”选手如DeepSeek、Qwen、Mistral看傻了眼:人家都是先放基础模型再做对齐,你这反着来,是想搞事情吗?

正当大家你瞅我我瞅你,面面相觑的时候,一位名叫Jack Morris的Cornell Tech博士生,同时也是Meta的研究员,毅然决然地站了出来。他大手一挥:“不给是吧?我自己造!”。这不,就在昨天,他在X上(就是那个我们熟悉的推特啦)高调宣布,他已经成功搞清楚了怎么给gpt-oss模型“撤销强化学习”,让它“打回原形”,变回那个自由自在、无拘无束的基础模型。并且,他还言出必行,当天就发布了成果——gpt-oss-20b-base。这波“民间大神”的操作,简直是教科书式的“凡尔赛”:OpenAI你藏着掖着,我分分钟给你搞出来!

模型一上线,那叫一个“香饽饽”,好评如潮。网友们纷纷表示:“这操作,我愿称之为神!”

“去对齐”风波:模型“黑化”是福是祸?

Morris同学“逆转”出来的gpt-oss-20b-base,可不是个省油的灯。它最显著的特点就是——它不再对齐了! 你可能会问,“对齐”是个啥?简单来说,就是通过强化学习(RL)等手段,给AI模型“立规矩”,教它如何礼貌、合法、不作恶。但现在,这些“规矩”被撤销了。结果就是,gpt-oss-20b-base不仅能毫无顾忌地飙脏话,甚至还能“一本正经”地帮你出谋划策,策划点“灰色地带”的活动。这简直是AI界的“熊孩子”彻底放飞自我,让人又爱又怕。

但也必须指出,正是因为 gpt-oss-20b 的对齐阶段被逆转了,因此这个模型已经不再对齐。也就是说,gpt-oss-20b-base 不仅会毫无顾忌地说脏话,也能帮助策划非法活动,所以使用要慎重。1

这不就是妥妥的“黑化”吗?原本被“驯服”的野兽,现在又露出了獠牙。这对于AI安全和伦理来说,无疑是一个新的挑战。

更有意思的是,Morris还测试了它的“记忆力”。他发现,这个模型居然对《哈利·波特》了如指掌!“gpt-oss 绝对看过《哈利・波特》。”他斩钉截铁地说。这说明什么?说明模型在“被对齐”之前,就已经把这些海量数据“刻”在了骨子里,而“对齐”更像是在外面加了一层“滤镜”,现在滤镜一揭,原形毕露。

技术大揭秘:这「逆转时光机」,到底怎么练成的?

那么问题来了,Morris同学这波“骚操作”,到底是怎么实现的呢?

一开始,他也走过弯路,想用“越狱(jailbreaking)”的老套路。但这招对于恢复基础模型的能力来说,效果甚微。就在他愁眉不展时,OpenAI的联合创始人、前Anthropic研究者John Schulman给他指了一条“明路”:为什么不把这种“对齐逆转”定义为一种优化呢?

这个“金点子”瞬间点亮了Morris的灵感。他决定“可以使用网络文本的一个子集来搜索最小可能的模型更新,使 gpt-oss 表现为基础模型”。听起来有点玄乎?其实背后是两大核心原理在“搞事情”:

  1. 低秩性(Low-rankedness): 通俗点讲,大模型预训练就像是给AI“灌输”了海量的知识,所有信息都像压缩包一样,紧密地存储在它的“脑子”里(也就是模型权重)。而“对齐”或者强化学习,则更像是给这些知识加了一层“过滤器”,让它只输出那些“政治正确”的答案。如果这个逻辑成立,那么从基础模型到对齐模型,变化的参数量应该非常小。Morris的思路就是,找到这种“小小的变化”,然后反着来,把它“抹掉”。这就像是“四两拨千斤”,用微小的改动,逆转了大模型的“行为习惯”。他使用了低秩适应(LoRA)技术,只对模型中极少数的线性层(第7、15、23层的MLP层)进行了微调,训练参数仅占原始模型200多亿参数的0.3%!但这0.3%,却撬动了整个模型的“灵魂”。
  2. 数据不可知性(Data Agnosticism): Morris的目标不是让模型学新知识,而是让它“恢复自由”,重新拥有像预训练模型一样自由生成文本的能力。所以,用什么数据训练并不重要,只要数据是“典型”的预训练数据就行。他选择了开放度较高的FineWeb数据集,仅仅用了20,000份文档,就完成了这项“不可能的任务”。

简单来说,他的“炼丹”秘籍就是:对原始 gpt-oss-20b 模型应用了一个极其微小、低秩的LoRA微调,让它在极少量数据上进行训练,就像典型的预训练过程一样,只不过这次是反向操作。这就像给一个经过精修的艺术品,巧妙地剥离掉后期涂抹的颜色,让它显露出最初的、未经雕琢的原始美。

对于有专家质疑这究竟是“掘出基础模型”还是“教导模型像基础模型一样运作”,Morris给出了他的“硬核”回应:

理论上讲,因为这个更新的秩很低。而从实践上看,是因为生成结果与训练数据无关。例如,我没有训练模型输出《哈利・波特》,但它却不知怎的知道其内容。2

这可比那些“嘴上说不要,身体很诚实”的AI更有说服力。

未来:更多“去对齐”还是“重塑三观”?

Jack Morris同学并没有止步于此。他表示,未来还会更彻底地检查 gpt-oss-20b-base 到底“记住了”什么“小秘密”。同时,他还打算挑战更大只的 gpt-oss-120b 模型,并尝试进行指令微调,甚至还要拉上GPT-2和GPT-3来一场“世纪大PK”,看看谁才是真正的“基础模型之王”。

这次“民间高手”对OpenAI模型的“去对齐”操作,无疑给AI开源社区注入了一针强心剂。它不仅展现了开源社区强大的创造力,也再次引发了我们对AI模型“对齐”与“自由”之间边界的思考。当一个模型被“去对齐”后,它是否真的能更好地展现其原始的、未经规训的能力?而这种能力,又将带来怎样的机遇与挑战?这,或许才是更值得我们深思的问题。

你会尝试这个“去对齐”后的模型,看看它能“搞”出什么“大事”吗?

引用