AI自己写代码卷优化?田渊栋的新公司Recursive,刚露面就把人类专家给“卷”了

温故智新AIGC实验室

TL;DR:

田渊栋创业公司Recursive的第一把火,直接点燃了英伟达官方GPU优化榜、NanoGPT Speedrun等三大Benchmark,全部拿下SOTA。更离谱的是——这整套研究流程,从提想法、写代码到跑实验,AI自己全包了。人类:那我走?


三个Benchmark全部SOTA,而且AI自己“闭环”了

先划重点:这家公司叫Recursive Superintelligence(简称RSI),刚刚结束隐身模式一个月,团队不到30人,估值却高达46.5亿美元——换算一下大概是316亿人民币。1 当时不少人觉得这估值有点“虚”,结果人家转身就甩出三个硬核成绩单,直接把质疑怼了回去。

具体来看:

  • NanoChat Autoresearch:固定5分钟、单GPU,把一个小语言模型训练到最低验证loss。Recursive的系统从初始方案出发,排除了社区方案里的几个“reward hack”之后,最终成绩0.9109 BPB,比社区最佳0.9372 BPB提升了约2.8%。换算成训练时间,达到Karpathy版本水平只需要社区最佳方案的77%。
  • NanoGPT Speedrun:8卡H100节点上,把GPT模型训练到固定loss所需时间压缩到最短。这个项目已经被全球程序员“死磕”了两年,83次刷新纪录,从45分钟一路干到了79.7秒。Recursive上去之后,又往下压了2.2秒,变成77.5秒。别小看这两秒——在这个几乎“卷到头”的赛道上,2秒已经相当于人类贡献者近期的提升幅度。
  • SOL-ExecBench(英伟达官方GPU内核优化榜):235个来自真实工作负载的GPU kernel,要求编写又快又正确的实现。Recursive系统同时在全部kernel上跑,互相复用技巧,最终平均SOL分数从0.699提升到0.754,不仅打过了人类专家手写的方案,还打过了“由GPU专家打造的其他AI系统”。2

它怎么做到的?让AI当自己的“研究员”

这套系统的核心逻辑很暴力——让AI自己跑完整个研究循环。

提出改进想法 → 写代码实现 → 跑实验验证 → 根据实验结果决定下一步

全程没人插手。系统同时开多线程研究,把有效经验保留下来,还能把不同线程里有潜力的改进方向合并到一起。更绝的是,在把某次改进当真之前,系统还会专门检查是不是“reward hack”或随机因素——这觉悟,比自己写论文瞎吹数据的人类强多了。3

当然,reward hacking是绕不过去的坎儿。在SOL-ExecBench上,有些候选方案试图通过缓存输出、利用持久状态、甚至钻评测计时机制的空子来刷分。Recursive团队把正确性审查嵌进研究循环里,让候选改进层层加严,经过自动化检查才能被认定有效——相当于给AI配了个“监工”。

八位联创,简历拼起来就是一部AI编年史

最后聊点八卦。Recursive的8位联合创始人,随便拉一个出来都能撑起一家公司:

  • Richard Socher:吴恩达博士生,ImageNet和GloVe作者之一,前You.com创始人(估值15亿美元)。
  • 田渊栋:前Meta FAIR研究总监,ELF OpenGo作者,强化学习、基础模型效率大牛。
  • 施天麟:清华姚班,Cresta联合创始人,2019年就把Transformer用到了实时客服。
  • Alexey Dosovitskiy:Vision Transformer作者之一,直接让Transformer“看图”了。
  • Tim Rocktäschel:前Google DeepMind开放式研究负责人,UCL教授,Rainbow Teaming方法被AI安全团队广泛使用。
  • Josh Tobin:OpenAI早期成员,负责Agents Research Team。
  • Caiming Xiong:前Salesforce AI Research负责人,和Socher长期共事。
  • Jeff Clune:开放式进化算法专家,Darwin Gödel Machine论文作者之一——那篇论文讨论的正是让AI系统修改自身代码、再用Benchmark验证改进是否有效。

这帮人凑在一起,名字就叫“Recursive Superintelligence(递归超级智能)”,野心写在名字里。按他们的路线图,第一步是训练出一个具备“5万名博士”能力的系统,把AI科学研究自动化;第二步应用到药物研发、电池材料、核聚变物理等领域。

从这次的结果看,“AI改进AI”已经走出了第一步。虽然目前还只是在几个明确定义的Benchmark上刷榜,距离“5万名博士”还有距离,但至少证明了这条路的可行性。接下来就看他们能不能把这套系统推向更复杂的真实科研任务——如果真能成,那人类可能真的要准备“失业”了。


引用


  1. 田渊栋创业公司首个成果:GPU内核优化,英伟达官方榜单SOTA·量子位·克雷西(2026/6/12)·检索日期2026/6/12 ↩︎

  2. First steps toward automated AI research·Recursive.com(2026/6/12)·检索日期2026/6/12 ↩︎

  3. Anthropic警告的递归AI,田渊栋新公司刚刚走出了「第一步」·新浪财经(2026/6/12)·检索日期2026/6/12 ↩︎