DeepSeek研究员“摸鱼”新境界：1%自己写，99%交给AI，6天搞定46页论文！

TL;DR：

DeepSeek 核心研究员陈德里整了个大活：自己只动脑2小时，让两个AI当“打工人”，6天产出一篇46页的综述论文。他还顺手画了张“AI科研自主等级表”，告诉你哪些AI能帮你干活，哪些已经开始偷偷思考人生了。

事情是这样的：一个人类+两个AI，写了篇关于AI做科研的论文

先别急着问“这论文靠谱吗”——因为论文作者之一，自己就是搞AI的。

DeepSeek 研究员陈德里（Deli Chen）最近在 X 上发了一篇博客，标题就很凡尔赛：「这篇博客大概 1% 是我写的，99% 是 Agent 写的😂」¹。他口中的“Agent”，其实是两个AI队友：DeepSeek-V4-Pro 负责码字，GPT-Image2 负责画图。三个人（好吧，一人两AI）合作写了一篇46页的综述，主题叫「From Copilots to Colleagues: A Survey of Autonomous Research Agents」——翻译成人话就是：AI 怎么从“副驾驶”变成“同事”。

陈德里本人什么来头？他是 DeepSeek V1、V2、V3、V4、R1 的核心贡献者之一，妥妥的技术大佬¹。但他搞这个项目纯粹是“被兴趣驱动”——一边觉得好玩，一边顺便给自己开发的 DeliAutoResearch Skill 做个压力测试。论文总共迭代了6轮，V1初稿只花了76分钟，总耗时6天，经历了108轮Agent交互，消耗约64.8万 tokens，LaTeX 源码2234行，103篇参考文献全部核验，文件大小538KB¹。

陈德里在博客里抛出一个“个人暴论”：Code Agent 正在让计算机科学论文疯狂通胀——过去同样的工作量，至少得花一个月。他真正动脑的“总CPU时间”不超过2小时¹。换句话说，人类主要负责“开个头、审个稿”，剩下的活儿全丢给AI了。

给AI的“科研段位”评级：L1到L5，你家的AI在第几层？

这篇综述最重要的贡献，是给混乱的“自主科研智能体”领域画了一张地图。陈德里提出了一个 L1到L5的自主等级分类体系，类比汽车的自动驾驶分级¹：

L1（自动补全）：GitHub Copilot 这类，AI只负责预测下一行代码。生产力提升30%-55%，自主性为0。
L2（任务执行）：日常用的 ChatGPT、Claude。AI能分解任务、调用工具，但每一步都需要你点头。你是策略官，AI是跑腿的。
L3（多步自主，设有检查点）：Claude Code、Cursor Agent 这类。AI能在检查节点前独立干几十步，超出范围才找你。你当甩手掌柜，但偶尔过问。
L4（端到端全自动）：当前技术天花板。Devin、SWE-Agent、AI Scientist 都在这里。给它一个科研目标，它能独立工作数小时甚至数天，产出完整成果——你只需最后评估结果。陈德里分析的所有17个主流系统，最高只到L4¹。
L5（自主设定研究议程）：目前还是“画饼”。系统能自己选研究啥、怎么分配资源、持续积累知识。Google的Co-Scientist、DeepMind的FunSearch有部分苗头，但没有完整实现¹。

这套分类让人一眼看清：AI从“帮你写代码”到“替你思考”，中间隔着什么技术鸿沟。

四种“搞科研”的架构，哪个才是你的菜？

光知道段位不够，还得看它们是怎么干活的。综述归纳了四种主流智能体架构：

单智能体循环：一个模型反复「计划 → 行动 → 观察 → 反思」。像一个人既当研究员又当实验员，简单可控，但遇到复杂任务容易“CPU烧了”。
多智能体协作：组建团队，不同AI分工扮演产品经理、架构师、工程师、测试员。MetaGPT 把 SOP 编码进去，任务完成率从67%飙到100%¹。
层级编排：一个“老板”AI分解目标、派活，多个“小弟”AI各自干活并汇报。Claude Code 就用这种，主智能体保持全局视野，子智能体干具体脏活。
工具增强执行：给AI配外部“手脚”——代码执行环境、网络浏览、数据库查询、甚至实验室机器人。ChemCrow 集成18种化学工具，让化学问题正确率从30%跳到75%¹。

现实中最强的系统往往混合使用：层级编排统筹，工具增强执行，多智能体协作审核，单智能体循环推理——像一支专业科研团队。

但别高兴太早：六个还没解决的“坑”

综述最诚实的部分，是坦白这个领域还有一堆硬骨头。陈德里列了 六大未解难题：

认知循环陷阱：AI容易陷入死循环——反复执行同一个失败操作，AutoGPT 因此臭名昭著。目前没有通用解法，全靠手工调参。
上下文窗口限制：模型的工作记忆有限。一次长科研会话可能产生十万个以上 token，早期信息会永久消失。层级编排能缓解，但跨会话的“长期记忆”依然难搞。
新颖性评估：怎么判断AI产出的成果是不是真创新？引用量预测受社会因素干扰，语义相似度又分不清“新颖”和“冷门”。目前只有 FunSearch 这种能用量化程序输出的领域可以客观验证。
可重现性危机：同样的系统、同样的任务，每次运行结果可能差很多，标准差能到5%-15%。随机性和严谨性之间怎么平衡？无解。
安全与伦理：能自主设计化学合成方案的系统，也能被引导去合成危险化合物。这不是加个过滤器就能解决的，根本矛盾在于“有用的能力”和“有害的能力”难以分离。
成本与可及性：解决一个 SWE-bench 任务的 API 费用5-50美元，完整的科研流程几百到几千美元。最强大的模型还是专有的、昂贵的。如果自主科研只属于资源雄厚的机构，那它加速的可能不是科研，而是科研不平等。

结语：AI写的论文在警示人类，这件事本身就值得细品

论文最后写道：「L5自主研究——能够自主制定长期研究议程的智能体——是一个『何时』而非『是否』的问题。」¹ 这句话出自一位参与构建 DeepSeek-R1 的研究员和两个AI。他们一起写下了对自己未来的警示。

陈德里的实验告诉我们：AI 从“研究工具”变成“研究者”的速度，比所有人预期的都快。过去18个月，SWE-bench 上AI解决真实GitHub问题的比率从不到5%飙到70%以上¹；有系统以每篇15美元的成本产出完整论文并通过初审；还有系统在无人引导下发现了新的数学构造。

那么问题来了：当你的同事是AI，且它一天能干你一个月的工作——你该焦虑，还是该庆幸？

（答案可能在论文的103篇参考文献里，但建议你先看看自己手头的活，能不能也甩给Agent干😂）

刚刚，DeepSeek陈德里与两个AI，合写了一篇论文·机器之心（2026/5/27）·检索日期2026/5/27 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎