“写论文我只动了2小时的脑子，剩下的交给AI”——DeepSeek研究员用Agent搞出46页论文，人类真成“甩手掌柜”了？

TL;DR：

DeepSeek研究员陈德里搞了个叫DeliAutoResearch的Agent技能，用DeepSeek-V4-Pro花了6天、108轮调用写完了一篇46页的综述论文。他本人只动了不到2小时的大脑，剩下的99%全是Agent代劳。论文还把AI研究智能体分成了L1到L5五个等级——这不就是AI版自动驾驶分级吗？

如果你还在担心AI抢走你的工作，那DeepSeek的研究员陈德里可能已经替你“躺平”了。

前几天，他在个人博客上低调地更新了一篇研究综述论文。乍一看没什么特别的——46页，7张图表，4个表格，103个参考文献，每个都经得起查证。但仔细一看，他在论文开头写了一句让人瞳孔地震的话：

“1%是我写的，99%是Agent写的。” ¹

你没看错。这位研究员用了自己开发的技能 DeliAutoResearch，配合DeepSeek-V4-Pro² 做研究和写作，再让GPT-Image2画图。整篇论文迭代了6个版本，耗时6天，进行了大约108轮Agent调用，消耗了64.8万token，生成了2234行LaTeX代码。最后他本人的“碳基大脑”总CPU时间——不到2小时。

换句话说，人类只负责把咖啡端到桌前，AI把论文的骨架、血肉、甚至参考文献都给你码好了。这哪是写论文，简直是在做“AI监工”啊。

2小时 vs 6天：人类和AI的分工，比你想的还夸张

先别急着喊“AI要统治学术界了”。陈德里在博客里也写了一句免责声明：“观点仅为个人所有，不代表任何组织。” ¹ 但他自己倒是对这个实验很坦诚：

“Code Agent导致计算机科学论文数量疯狂膨胀，同样的工作以前至少需要一个月才能完成。”

一个月 vs 6天，人类大脑2小时 vs 硅基大脑108轮调用。这效率差距，放在任何一个科研狗面前都得流下羡慕的泪水。

但更值得玩味的是，这篇论文本身就在研究“AI自动研究智能体”这件事。它提出了一个从L1到L5的自主度分类体系，彻底把AI Agent的“驾驶水平”给你划分得明明白白——就像自动驾驶的SAE级别那样。¹

L1-L5：AI研究员的“自动驾驶分级”，你到哪一级了？

如果你对AI Agent还停留在“让ChatGPT帮我写个邮件”的阶段，那这篇论文能直接把你拉进21世纪。

L1：自动补全——你写一行代码，它猜下一行。最早的GitHub Copilot就是这个水平。
L2：任务执行——ChatGPT/Claude聊天机器人加上工具，能分解任务，但每一步都要你点头同意。
L3：多步骤执行——Claude Code、Cursor Agent这类，能自主执行10到100步，关键点才让你审核。
L4：受限领域全自主执行——你只给研究目标，它能做实验、写代码、写论文，但不能自己选研究问题。
L5：完全自主研究——自己选题、分配资源、积累知识、跨领域持续研究。目前还是“理想车型”，还没人能开上这条路。 ¹

陈德里指出，目前行业前沿刚刚摸到L4的门槛。真正的瓶颈不是模型能力，而是**“持续知识积累”和“可靠自我评估”**——说白了，AI现在能做“短跑”，但还跑不了“马拉松”。

四种架构，哪种最“香”？答案是：混搭

论文不只分级，还梳理了当前AI Agent的四种主流架构模式，并给出了“选型指南”：

单智能体循环：简单高效，适合短任务。代表：ReAct、Reflexion。
多智能体协作：角色分工，多视角纠错。代表：AutoGen、MetaGPT。缺点是话多、成本高。
分层调度：大管家式规划，适合长时程复杂研究。代表：Claude Code、Devin。
工具增强执行：靠外部工具吃饭，能力边界取决于工具。代表：SWE-Agent。¹

但现实中没有哪个架构是万能的。 论文里明说了：实际应用中大家普遍用混合架构——哪种模式好用就上哪种，像个AI版的“工具箱”。

开放问题：AI搞科研还有哪些坑？

虽然这波操作看起来很炫酷，但陈德里也没光顾着吹。他在论文最后抛出了六大开放问题，个个都扎心：

认知循环陷阱：智能体重复无效策略，不会自己喊停。
上下文限制：固定窗口（4K-1M token）撑不住长时程研究。
创新性评估：目前没有自动化方法判断研究的原创性。
可复现性：模型随机性、提示敏感性，导致结果别人复现不了。
安全伦理：双用途风险、学术诚信风险——用AI写完论文算不算学术不端？
成本问题：单任务成本50美元起步，科研不发达国家直接哭晕在厕所。¹

这些问题不解决，L5就永远只是PPT上的“未来蓝图”。

One More Thing：Agent让研究员“重新做人”

文章最后还有一个让人会心一笑的彩蛋。陈德里自述，高强度工作让他长期精力不足，很多想做的事——博客、写作——都搁置了。现在有了Agent，他才有机会把这些重新捡起来。¹

人类的角色，从“执行者”变成了“发起者”。

听起来很美好对吧？但别忘了，那个只动了2小时脑子的人，依然是这篇论文的第一作者。AI再卷，也卷不走那个提出研究方向的首席“甩手掌柜”。

引用

量子位·梦晨 (2026/5/27). DeepSeek陈德里开发自动研究Skill，写一篇论文人类只动脑2小时. 36氪. 检索日期2026/5/27. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
DeepSeek-V4-Pro：评测、参数、下载与模型卡. DataLearnerAI. 检索日期2026/5/27. ↩︎