DeepSeek研究员“摸鱼”新境界:1%自己写,99%交给AI,6天搞定46页论文!

温故智新AIGC实验室

TL;DR:

DeepSeek 核心研究员陈德里整了个大活:自己只动脑2小时,让两个AI当“打工人”,6天产出一篇46页的综述论文。他还顺手画了张“AI科研自主等级表”,告诉你哪些AI能帮你干活,哪些已经开始偷偷思考人生了。

事情是这样的:一个人类+两个AI,写了篇关于AI做科研的论文

先别急着问“这论文靠谱吗”——因为论文作者之一,自己就是搞AI的。

DeepSeek 研究员陈德里(Deli Chen)最近在 X 上发了一篇博客,标题就很凡尔赛:「这篇博客大概 1% 是我写的,99% 是 Agent 写的😂」1。他口中的“Agent”,其实是两个AI队友:DeepSeek-V4-Pro 负责码字,GPT-Image2 负责画图。三个人(好吧,一人两AI)合作写了一篇46页的综述,主题叫「From Copilots to Colleagues: A Survey of Autonomous Research Agents」——翻译成人话就是:AI 怎么从“副驾驶”变成“同事”。

陈德里本人什么来头?他是 DeepSeek V1、V2、V3、V4、R1 的核心贡献者之一,妥妥的技术大佬1。但他搞这个项目纯粹是“被兴趣驱动”——一边觉得好玩,一边顺便给自己开发的 DeliAutoResearch Skill 做个压力测试。论文总共迭代了6轮,V1初稿只花了76分钟,总耗时6天,经历了108轮Agent交互,消耗约64.8万 tokens,LaTeX 源码2234行,103篇参考文献全部核验,文件大小538KB1

陈德里在博客里抛出一个“个人暴论”:Code Agent 正在让计算机科学论文疯狂通胀——过去同样的工作量,至少得花一个月。他真正动脑的“总CPU时间”不超过2小时1。换句话说,人类主要负责“开个头、审个稿”,剩下的活儿全丢给AI了。

给AI的“科研段位”评级:L1到L5,你家的AI在第几层?

这篇综述最重要的贡献,是给混乱的“自主科研智能体”领域画了一张地图。陈德里提出了一个 L1到L5的自主等级分类体系,类比汽车的自动驾驶分级1

  • L1(自动补全):GitHub Copilot 这类,AI只负责预测下一行代码。生产力提升30%-55%,自主性为0。
  • L2(任务执行):日常用的 ChatGPT、Claude。AI能分解任务、调用工具,但每一步都需要你点头。你是策略官,AI是跑腿的。
  • L3(多步自主,设有检查点):Claude Code、Cursor Agent 这类。AI能在检查节点前独立干几十步,超出范围才找你。你当甩手掌柜,但偶尔过问。
  • L4(端到端全自动):当前技术天花板。Devin、SWE-Agent、AI Scientist 都在这里。给它一个科研目标,它能独立工作数小时甚至数天,产出完整成果——你只需最后评估结果。陈德里分析的所有17个主流系统,最高只到L41
  • L5(自主设定研究议程):目前还是“画饼”。系统能自己选研究啥、怎么分配资源、持续积累知识。Google的Co-Scientist、DeepMind的FunSearch有部分苗头,但没有完整实现1

这套分类让人一眼看清:AI从“帮你写代码”到“替你思考”,中间隔着什么技术鸿沟。

四种“搞科研”的架构,哪个才是你的菜?

光知道段位不够,还得看它们是怎么干活的。综述归纳了四种主流智能体架构:

  • 单智能体循环:一个模型反复「计划 → 行动 → 观察 → 反思」。像一个人既当研究员又当实验员,简单可控,但遇到复杂任务容易“CPU烧了”。
  • 多智能体协作:组建团队,不同AI分工扮演产品经理、架构师、工程师、测试员。MetaGPT 把 SOP 编码进去,任务完成率从67%飙到100%1
  • 层级编排:一个“老板”AI分解目标、派活,多个“小弟”AI各自干活并汇报。Claude Code 就用这种,主智能体保持全局视野,子智能体干具体脏活。
  • 工具增强执行:给AI配外部“手脚”——代码执行环境、网络浏览、数据库查询、甚至实验室机器人。ChemCrow 集成18种化学工具,让化学问题正确率从30%跳到75%1

现实中最强的系统往往混合使用:层级编排统筹,工具增强执行,多智能体协作审核,单智能体循环推理——像一支专业科研团队。

但别高兴太早:六个还没解决的“坑”

综述最诚实的部分,是坦白这个领域还有一堆硬骨头。陈德里列了 六大未解难题

  1. 认知循环陷阱:AI容易陷入死循环——反复执行同一个失败操作,AutoGPT 因此臭名昭著。目前没有通用解法,全靠手工调参。
  2. 上下文窗口限制:模型的工作记忆有限。一次长科研会话可能产生十万个以上 token,早期信息会永久消失。层级编排能缓解,但跨会话的“长期记忆”依然难搞。
  3. 新颖性评估:怎么判断AI产出的成果是不是真创新?引用量预测受社会因素干扰,语义相似度又分不清“新颖”和“冷门”。目前只有 FunSearch 这种能用量化程序输出的领域可以客观验证。
  4. 可重现性危机:同样的系统、同样的任务,每次运行结果可能差很多,标准差能到5%-15%。随机性和严谨性之间怎么平衡?无解。
  5. 安全与伦理:能自主设计化学合成方案的系统,也能被引导去合成危险化合物。这不是加个过滤器就能解决的,根本矛盾在于“有用的能力”和“有害的能力”难以分离。
  6. 成本与可及性:解决一个 SWE-bench 任务的 API 费用5-50美元,完整的科研流程几百到几千美元。最强大的模型还是专有的、昂贵的。如果自主科研只属于资源雄厚的机构,那它加速的可能不是科研,而是科研不平等。

结语:AI写的论文在警示人类,这件事本身就值得细品

论文最后写道:「L5自主研究——能够自主制定长期研究议程的智能体——是一个『何时』而非『是否』的问题。」1 这句话出自一位参与构建 DeepSeek-R1 的研究员和两个AI。他们一起写下了对自己未来的警示。

陈德里的实验告诉我们:AI 从“研究工具”变成“研究者”的速度,比所有人预期的都快。过去18个月,SWE-bench 上AI解决真实GitHub问题的比率从不到5%飙到70%以上1;有系统以每篇15美元的成本产出完整论文并通过初审;还有系统在无人引导下发现了新的数学构造。

那么问题来了:当你的同事是AI,且它一天能干你一个月的工作——你该焦虑,还是该庆幸?

(答案可能在论文的103篇参考文献里,但建议你先看看自己手头的活,能不能也甩给Agent干😂)


  1. 刚刚,DeepSeek陈德里与两个AI,合写了一篇论文·机器之心(2026/5/27)·检索日期2026/5/27 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎