TL;DR:
DeepSeek研究员陈德里搞了个叫DeliAutoResearch的Agent技能,用DeepSeek-V4-Pro花了6天、108轮调用写完了一篇46页的综述论文。他本人只动了不到2小时的大脑,剩下的99%全是Agent代劳。论文还把AI研究智能体分成了L1到L5五个等级——这不就是AI版自动驾驶分级吗?
如果你还在担心AI抢走你的工作,那DeepSeek的研究员陈德里可能已经替你“躺平”了。
前几天,他在个人博客上低调地更新了一篇研究综述论文。乍一看没什么特别的——46页,7张图表,4个表格,103个参考文献,每个都经得起查证。但仔细一看,他在论文开头写了一句让人瞳孔地震的话:
“1%是我写的,99%是Agent写的。” 1
你没看错。这位研究员用了自己开发的技能 DeliAutoResearch,配合DeepSeek-V4-Pro2 做研究和写作,再让GPT-Image2画图。整篇论文迭代了6个版本,耗时6天,进行了大约108轮Agent调用,消耗了64.8万token,生成了2234行LaTeX代码。最后他本人的“碳基大脑”总CPU时间——不到2小时。
换句话说,人类只负责把咖啡端到桌前,AI把论文的骨架、血肉、甚至参考文献都给你码好了。这哪是写论文,简直是在做“AI监工”啊。
2小时 vs 6天:人类和AI的分工,比你想的还夸张
先别急着喊“AI要统治学术界了”。陈德里在博客里也写了一句免责声明:“观点仅为个人所有,不代表任何组织。” 1 但他自己倒是对这个实验很坦诚:
“Code Agent导致计算机科学论文数量疯狂膨胀,同样的工作以前至少需要一个月才能完成。”
一个月 vs 6天,人类大脑2小时 vs 硅基大脑108轮调用。这效率差距,放在任何一个科研狗面前都得流下羡慕的泪水。
但更值得玩味的是,这篇论文本身就在研究“AI自动研究智能体”这件事。它提出了一个从L1到L5的自主度分类体系,彻底把AI Agent的“驾驶水平”给你划分得明明白白——就像自动驾驶的SAE级别那样。1
L1-L5:AI研究员的“自动驾驶分级”,你到哪一级了?
如果你对AI Agent还停留在“让ChatGPT帮我写个邮件”的阶段,那这篇论文能直接把你拉进21世纪。
- L1:自动补全——你写一行代码,它猜下一行。最早的GitHub Copilot就是这个水平。
- L2:任务执行——ChatGPT/Claude聊天机器人加上工具,能分解任务,但每一步都要你点头同意。
- L3:多步骤执行——Claude Code、Cursor Agent这类,能自主执行10到100步,关键点才让你审核。
- L4:受限领域全自主执行——你只给研究目标,它能做实验、写代码、写论文,但不能自己选研究问题。
- L5:完全自主研究——自己选题、分配资源、积累知识、跨领域持续研究。目前还是“理想车型”,还没人能开上这条路。 1
陈德里指出,目前行业前沿刚刚摸到L4的门槛。真正的瓶颈不是模型能力,而是**“持续知识积累”和“可靠自我评估”**——说白了,AI现在能做“短跑”,但还跑不了“马拉松”。
四种架构,哪种最“香”?答案是:混搭
论文不只分级,还梳理了当前AI Agent的四种主流架构模式,并给出了“选型指南”:
- 单智能体循环:简单高效,适合短任务。代表:ReAct、Reflexion。
- 多智能体协作:角色分工,多视角纠错。代表:AutoGen、MetaGPT。缺点是话多、成本高。
- 分层调度:大管家式规划,适合长时程复杂研究。代表:Claude Code、Devin。
- 工具增强执行:靠外部工具吃饭,能力边界取决于工具。代表:SWE-Agent。1
但现实中没有哪个架构是万能的。 论文里明说了:实际应用中大家普遍用混合架构——哪种模式好用就上哪种,像个AI版的“工具箱”。
开放问题:AI搞科研还有哪些坑?
虽然这波操作看起来很炫酷,但陈德里也没光顾着吹。他在论文最后抛出了六大开放问题,个个都扎心:
- 认知循环陷阱:智能体重复无效策略,不会自己喊停。
- 上下文限制:固定窗口(4K-1M token)撑不住长时程研究。
- 创新性评估:目前没有自动化方法判断研究的原创性。
- 可复现性:模型随机性、提示敏感性,导致结果别人复现不了。
- 安全伦理:双用途风险、学术诚信风险——用AI写完论文算不算学术不端?
- 成本问题:单任务成本50美元起步,科研不发达国家直接哭晕在厕所。1
这些问题不解决,L5就永远只是PPT上的“未来蓝图”。
One More Thing:Agent让研究员“重新做人”
文章最后还有一个让人会心一笑的彩蛋。陈德里自述,高强度工作让他长期精力不足,很多想做的事——博客、写作——都搁置了。现在有了Agent,他才有机会把这些重新捡起来。1
人类的角色,从“执行者”变成了“发起者”。
听起来很美好对吧?但别忘了,那个只动了2小时脑子的人,依然是这篇论文的第一作者。AI再卷,也卷不走那个提出研究方向的首席“甩手掌柜”。