TL;DR:
AI圈最硬核“真人秀”收官!AI科学家FARS在228小时内自主“肝”出100篇论文,烧掉114亿Token。虽然质量还没摸到顶会“中稿线”,但这种每2小时产出一篇的“工业级吞吐量”,已经让学术圈感受到了亿点点来自未来的震撼。
这个春节,当你在走亲戚、刷短视频时,AI圈的一位“劳模”正悄悄给全人类演了一场史诗级的科研直播。
主角不是什么会跳舞的机器人,而是一套名为FARS(Fully Automated Research System)的全自动研究系统。在长达228小时的连续公开运行中,这位“AI科学家”不眠不休,自己提假设、做实验、写论文,最后硬生生“肝”出了100篇短论文(short paper)。1
这种“科研大跃进”式的生产力,让围观网友直呼:“这哪是写论文,这简直是给学术圈开了个自动印钞机!”
科研装配线:160张显卡撑起的“肝帝”
FARS并非一个只会“写作文”的大模型,而是一座严丝合缝的“科研工厂”。它由Analemma(日行迹)团队打造,背后的男人正是当年引爆国内大模型热潮的MOSS核心开发者孙天祥。2
这套系统被拆解为四个像流水线工人一样的模块:
- Ideation(构思):负责海量文献调研,像个老教授一样提假设;
- Planning(规划):设计实验方案,比实验室大师兄还稳;
- Experiment(实验):手操160张显卡集群,写代码、跑数据;
- Writing(写作):把枯燥的结果包装成工整的论文。
在这场228小时的狂飙中,FARS每隔约2小时17分就吐出一篇新论文,累计消耗了114亿Token,烧掉了约10.4万美元(约合75万人民币)的算力。1
“平均每篇论文成本1000美元,虽然对个人来说不便宜,但对比人类科研动辄3-6个月的周期和高昂的人力成本,这简直是‘降维打击’。”
质量质检:是“水刊”杀手还是顶会预备役?
量大管饱是肯定的,那质量能打吗?
研究团队搬出了斯坦福大学开发的AI审稿系统Agentic Reviewer,按照ICLR的评审标准给这100篇论文挨个打分。结果显示:FARS的平均分为5.05。
作为一个参考,ICLR 2026人类投稿的平均分为4.21,而最终被接收的论文平均分为5.39。1
简单总结就是:比下有余,比上未满。 FARS现在的水平已经稳稳超过了人类投稿的平均水平,但距离“稳中顶会”还有最后一段进化的路要走。
更让人佩服的是FARS的“算法诚实”。在代号为FA0121的实验中,它试图修复DeepSeek架构中的“冷热偏置”问题,结果实验翻车,提升微乎其微。1 换做是人类研究员,可能正发愁怎么“修饰”数据,FARS却在论文里老老实实地复盘了失败原因。这种不为了发论文而造假的“科研品德”,让不少学术圈同行感到汗颜。
行业“地震”:科研的尽头是算力还是品味?
FARS并不是唯一的玩家。就在近期,港中深团队也直播演示了智能科研系统CORE,甚至能调动机械臂在物理世界做实验。3 加上之前的Sakana AI和OpenAI宣称要在2028年推出的“全自主AI研究员”,科研领域似乎正在从“手工坊时代”跨入“工业时代”。
对于这种变化,舆论场分成了两派:
- 焦虑派:如果AI一天能写10篇中游论文,人类研究生存在的意义是什么?难道我们的宿命就是给AI改格式?
- 乐观派:AI负责把那99%的错误路径跑通,人类负责在那1%的突破性灵感上“点石成金”。
正如一些资深研究者所言,当发论文的门槛被AI彻底踩碎,**“研究者的个人品味”**或许将成为最后一块遮羞布——决定研究上限的,不再是你多能熬夜,而是你选择去解决什么样的问题。
无限心智的起点
FARS的这100篇论文,更像是一枚钉在时间线上的坐标点。它证明了:端到端的自动化科研流水线不仅能跑,而且能跑得很稳。
虽然它现在还像个训练有素的“初级研究员”,甚至有点“算力换智能”的土豪气息,但在AI的世界里,从“能跑”到“跑赢人类”,往往只需要一个版本的迭代。
正如Analemma的公司Slogan所说:“在一个问题无限的世界里,我们需要构建无限心智。”这场关于知识生产的权力交接,或许才刚刚开始。
引用
-
228小时狂飙100篇论文、烧光114亿Token:FARS杀疯了 · 36氪 · Sia (2026/02/24) · 检索日期2026/02/25 ↩︎ ↩︎ ↩︎ ↩︎
-
MOSS孙天祥新公司要让AI自己写100篇论文,还要全网直播一个月 · 品玩 · (2026/02/25) · 检索日期2026/02/25 ↩︎
-
我国科学家实现AI自主完成“idea到论文”全过程 · 科学网 · 刁雯蕙 (2026/02/13) · 检索日期2026/02/25 ↩︎