随着AI工具和公共数据集的滥用,学术界正面临一场“垃圾论文”海啸,这不仅暴露出技术潜在的负面影响,更深刻揭示了当前科研评价体系的结构性扭曲,亟需全面改革以维护科学诚信。
试想,作为一名资深学术期刊编辑,你的邮箱每天都被源源不断、似曾相识的投稿塞满。它们主题各异,数据规整,措辞流畅,却总透着一股令人不安的“模板感”。这并非科幻场景,而是英国萨里大学统计学家马特·斯皮克(Matt Spick)在2024年真实遭遇的困境。他发现,大量涌入《科学报告》(Scientific Reports)等期刊的论文,都基于一个共同的源头——美国国家健康与营养检查调查(NHANES)这一庞大的公共数据集。
“我收到的几乎一模一样的论文太多了,有时一天一篇,有时两天三篇,”斯皮克无奈地向《科学》(Science)杂志透露,“这不太对劲。”1 他的观察并非孤例。一场利用公共数据与新兴AI工具,批量生产看似严谨却质量堪忧的学术“产品”的浪潮,正席卷全球学术界,将其异化为一场危险的“科研填空游戏”。
“填空游戏”的温床:公共数据集的双刃剑
NHANES数据集,作为美国政府的一项重要公共资源,涵盖了超过13万美国人的详细健康检查、血液检测及饮食信息。其开放性与丰富性,原本旨在降低科研门槛,加速健康科学发现。然而,这份便利正被滥用,演变为一场“批量生产”的灾难。
斯皮克的研究团队在《公共科学图书馆·生物学》(PLOS Biology)杂志上揭示了这种“填空游戏”的模式:研究者只需简单地选择一种健康状况(如抑郁症),一个潜在相关的环境或生理因素(如维生素D水平),再限定一个特定人群(如65岁以上男性),通过排列组合,便能迅速生成“新发现”的论文。西北大学的元科学家里斯·理查森(Reese Richardson)将其形象地比喻为“科研填空游戏”。2
更令人担忧的是,这种“生产”并非偶然。斯皮克团队在PubMed和Scopus两大数据库中搜索基于NHANES的单变量关联研究后发现,一个惊人的趋势浮出水面:2014年至2021年间,这类论文年均仅4篇,但从2022年开始,数量激增。截至2024年10月,已飙升至190篇,远超其他大型健康数据集研究的增长速度。更广泛的统计显示,使用NHANES数据集的论文总量从2023年的4926篇激增到2024年的7876篇。2
这种爆发式增长背后,往往伴随着**“p值狩猎”**(p-hacking)——即通过反复尝试、选择性地分析数据子集,以寻找统计学上“显著”的结果,即便这些结果在科学上可能并无实际意义。以抑郁症相关的NHANES论文为例,斯皮克团队分析了28篇论文,发现在进行假发现率(FDR)校正后,超过一半的“发现”失去了统计学显著性。这意味着,大量看似“新颖”的结论,可能不过是统计噪音。
AI与论文工厂:加速学术“工业化”
NHANES论文数量在2022年后的井喷,绝非巧合,其时间点与AI工具,特别是ChatGPT等大型语言模型的广泛普及高度吻合。这些工具能够根据简单的指令,生成语法流畅、逻辑清晰,甚至能通过改写来规避传统抄袭检测的文本。
悉尼大学分子生物学家詹妮弗·伯恩(Jennifer Byrne)在审稿时,对这类论文的“规模和时机”深感怀疑,认为背后可能存在协调运作,直指**“论文工厂”**(paper mills)是幕后推手。1 论文工厂是专门出售论文署名权的商业机构,它们利用AI的文本生成能力,结合NHANES等公共数据集的便利性,以“工业化”流水线的方式批量生产看似“合法”的论文。斯皮克团队甚至能编写出一段简单的Python代码,就能从NHANES中提取数据并“批量生成”疾病与健康变量的组合。
这种高效而机械的生产模式,正以令人难以置信的速度,将低质量的学术垃圾倾泻到期刊系统中。斯皮克的愤怒溢于言表:“老实说,这让我气得跳脚。”这不禁让人联想到哲学家汉娜·阿伦特(Hannah Arendt)笔下的**“平庸之恶”**:论文工厂或许并非有意摧毁科学,但其机械化的论文生产,却在悄然无息中,侵蚀着学术探索的根基。
扭曲的激励:学术评价体系的深层病灶
这场“科研填空游戏”的根源,远不止于技术和数据的滥用,它更深刻地折射出当前学术生态的结构性扭曲。理查森一针见血地指出,许多“被点名”的开放获取期刊,都收取了约1000美元的文章处理费(APC)来刊登这些论文。2 这种作者付费的模式,在追求免费阅读的同时,也无形中鼓励了某些期刊为追求利润而牺牲质量。
然而,更深层的问题在于全球普遍存在的科研评价体系。在“不发表就出局”(publish or perish)的强大压力下,许多高校和研究机构将论文数量而非质量或实际影响力,作为晋升、获得资助乃至衡量学者绩效的核心KPI(关键绩效指标)。当科学研究从探索真理的旅程沦为一场“数字游戏”,研究者不得不制造出更多的“成果”,即便这些“成果”可能毫无意义,甚至只是学术垃圾。
这不仅导致了科学发现的“贫血”,更让身处其中的研究者陷入意义的困境。当论文成为冰冷的KPI数字,科学的殿堂便从求索之地,异化为一个巨大的“填空机器”。
破局之路:重塑科学的基石
面对这场由技术滥用与系统性扭曲共同催生的危机,破局并非无解,但亟需多方联动、深层改革。
首先,期刊层面的审查必须加强。斯皮克建议,期刊应针对NHANES等公共数据集的论文,要求作者明确数据选择的理由,并进行更严格的统计校正,例如强制要求多重检验校正。同时,伯恩呼吁开发更智能、更鲁棒的AI检测工具,以识别那些由语言模型生成或改写的文本,筑起防止学术造假的“防火墙”。
然而,这些都只是治标之策。根本的改变,在于重塑学术激励机制。理查森警告:“除非我们彻底改革科研发表的激励模式,否则问题只会更糟。”这意味着,学术界需要重新审视并定义“卓越”的标准,从单纯的“数量”导向转向更加强调“质量”、“创新性”和“社会影响力”。这可能包括:
- 推行基于成果质量和影响力的评估体系:例如,引入开放式同行评议、更注重引文质量而非数量、以及对研究项目实际社会价值的评估。
- 鼓励数据共享和透明度:要求研究者提供更详细的数据分析方法和原始数据,以便进行可重复性验证。
- 加强科研伦理教育:提高研究者对科研诚信重要性的认识,构建更健康的学术文化。
这场由AI和公共数据集带来的“科研填空游戏”,更像是一面深刻的镜子。它映照出技术进步与学术伦理碰撞的裂缝,也暴露出当前科研评价体系的脆弱。AI和海量数据本应是科学探索的强大加速器,但在扭曲的激励下,却成了滋生学术泡沫的温床。唯有直面这些深层问题,并勇敢地进行结构性改革,科学才能真正回归其探索真理的本质。
References
-
Science Staff (2024/6/12). Low-quality papers are surging, exploiting public data sets and AI. Science. 检索日期2025/6/16。 ↩︎ ↩︎
-
新智元 (2024/6/16). 一个数据集,一年产稿7876篇,AI强力加持,垃圾论文海量爆发. 新智元 via 36氪. 检索日期2025/6/16。 ↩︎ ↩︎ ↩︎