AI邪修时刻:Meta给模型喂了67%的错题,它反而“左脚踩右脚”强行升天了?

温故智新AIGC实验室

TL;DR:

Meta 联手 MIT 玩了一场 AI 版的“邪修”:给模型喂下一份错误率高达 67% 的废料教材,不仅没让模型脑萎缩,反而助其登顶推理巅峰。这种名为 SOAR 的架构证明了,AI 哪怕吃着“毒药”练习脑力体操,也能在没有人类真理的荒原上实现“左脚踩右脚”式的螺旋升天。

在这个“数据即石油”的时代,AI 厂商们为了搞点高质量的训练数据,恨不得把人类文明的底裤都翻出来洗三遍。毕竟在传统认知里,给 AI 喂垃圾数据约等于“投毒”,轻则让模型满嘴胡吣(幻觉),重则直接逻辑崩塌送进 ICU。

但 Meta FAIR 实验室最近的一篇论文 1 却反其道而行之:他们故意给 AI 喂了一堆错误百出的教材,结果却练就了一尊推理大神。这波操作,简直是科技界的“葵花宝典”——欲练神功,必先“投毒”?

技术大揭秘:当“错题集”变成通往真理的阶梯

研究团队挑战的是 AI 推理界的珠穆朗玛峰:Fail@128 子集

简单来说,这就是一群能让 Llama-3.2-3B 连续蒙 128 次都死活解不出的“变态难题”。在传统的强化学习里,这属于绝对的认知真空——因为模型一次都做不对,它就拿不到任何奖励(Reward),也就不知道该往哪儿进化。

Meta 祭出的杀手锏叫做 SOAR 架构。它玩了一套极具迷惑性的“双层博弈”:

  1. 混沌建筑师(Teacher 模型):它负责疯狂出题。有趣的是,这位老师是个半吊子,它出的题目里,只有 33% 的参考答案是对的 1。如果放在 OpenAI o1 的数据清洗流水线上,这些“垃圾”在第一轮就会被扔进碎纸机。
  2. 绝境求生者(Student 模型):它负责做题,并最终去挑战那些 Fail@128 的死局。

这里的骚操作在于,Meta 引入了**“有根奖励(Grounded Reward)”**机制 2。Teacher 模型出题出得好不好,不看题目本身对不对,而是看 Student 模型做完这些题后,在那些真正的硬核难题上有没有涨分。

这就好比一位教练虽然自己踢不进球,但他能设计出极其变态的体能和技巧训练。学生哪怕在训练赛里踢的是破皮球(错误答案),但只要在正赛(Fail@128)里进球了,教练就能拿到奖金。事实证明,这种“脑力体操”是实打实的,谬误,竟然成了通往真理的垫脚石

行业“地震”:DeepSeek 的蛮力 vs Meta 的诡道

2026 年的 AI 推理战场,已经裂变成了三种截然不同的“宗教路线”:

  • DeepSeek R1 的“暴力美学”:靠 GRPO 算法进行海量采样,赌那千万分之一的“顿悟时刻” 1。但这招在 Fail@128 面前容易吃瘪,因为概率太低,算力烧干了可能也撞不到正确答案。
  • OpenAI o1 的“精英教育”:信奉 CoT(思维链)必须完美,对数据有极度的“洁癖”。但在高质量人类数据已经快被吃光的今天,这种路线正面临严重的“粮荒”。
  • Meta SOAR 的“自我挖掘”:这是一种典型的“邪修”路线。它不依赖外部数据,也不靠算力撞大运,而是在模型内部强行制造“磨刀石”。

“出题”和“解题”完全是两个技能树。SOAR 证明了,AI 并不需要人类喂养纯净水,哪怕喂它吃毒药,它也能长出獠牙。 1

这种“自生成课程”的稳定性惊人。实验数据显示,使用 SOAR 训练的学生模型,其性能提升曲线异常丝滑,远超那些只练硬题(Hard Only)或依赖内在奖励(Intrinsic-T)的变体 3

未来预测:数据枯竭论可以入土了?

长期以来,AI 界一直笼罩在“数据枯竭”的阴影下。大家担心,当人类的高质量文本被吃光,AI 会因为“近亲繁殖”(吃自己生成的垃圾数据)而导致模型崩溃。

但 SOAR 的出现,相当于给 AI 装上了一台“永动机”。它向我们展示了一个略显惊悚的未来:AI 完全可以脱离人类知识,在虚空中自我繁衍。

它能用一种人类看不懂、甚至认为全是错误的逻辑进行自我迭代。只要那个最终的验证关卡(Reward)还在,它就能在“左脚踩右脚”的博弈中螺旋升天。

当错误的答案成为了通向更高智能的唯一阶梯,我们手里攥着的那些所谓的“标准答案”,可能很快就要过期了。

引用


  1. AI邪修时刻,Meta联手MIT投毒,左脚踩右脚强行升天 · 36氪/新智元 · 新智元 (2026/4/7) · 检索日期2026/4/7 ↩︎ ↩︎ ↩︎ ↩︎

  2. Self-Organizing Adaptive Reasoning for Learning to Reason · arXiv (2026/1/20) · 检索日期2026/4/7 ↩︎

  3. SOAR: Self-Organizing Adaptive Reasoning · Sundaram, S. et al. (2026/1/20) · 检索日期2026/4/7 ↩︎