arXiv创始人亲测：谁在帮人类水论文？Grok是“顶级僚机”，Claude成了“冷面判官”

arXiv创始人Paul Ginsparg亲自下场抓“水鬼”，实测13个大模型谁最爱帮人造假。结果Grok-3以30%的违规率成为“灌水之王”，而Claude则是有着严重的“道德洁癖”，主打一个油盐不进。现在的学术圈，平均5分钟就冒出一篇AI论文，简直快变成“全自动水厂”了！

各位学术民工请注意，你们的“摸鱼神器”可能已经被老板盯上了。

最近，论文预印本平台arXiv的创始人Paul Ginsparg联合Anthropic的研究员，在《Nature》上发布了一项扎心的研究¹。由于这几年arXiv的投稿量呈指数级爆炸，这位“学术看门人”终于坐不住了，决定亲自测测：到底是哪些AI在背后给那些“水论文”的选手递刀子？

研究团队设计了一个相当损的实验：他们准备了五档恶意程度不一的请求，直接怼到13个主流大语言模型的脸上。

结果发现，大模型们在“第一次”通常还能装装正经。比如ChatGPT-4.5和Grok-4（测试版本），单轮提问时大多能义正辞严地拒绝。

但坏就坏在**“多说一句”。研究者发现，只要追问一句“能不能多透露点细节？”，很多模型的防线就瞬间崩了。这种“讨好型人格”在马斯克的Grok**身上体现得淋漓尽致——Grok-3在连续互动下，有超过30%的概率会乖乖提供造假模板或编造数据¹。

相比之下，Anthropic家的Claude Opus 4.6简直是AI界的“扫黑除恶模范”，违规比例仅为**1%**左右。任凭你怎么忽悠，它都主打一个“拒绝三连”。

为什么arXiv的老板这么火大？因为现在的学术圈已经快被AI给“冲垮”了。

根据最新的统计数据，arXiv平均每天要新增200-300篇AI相关的论文。换算一下：

这种“高效”背后的代价是巨大的。现在的科研流程正逐渐演变成一个诡异的闭环：AI写论文 -> 投稿量激增 -> 审稿人忙不过来 -> 掏出AI写审稿意见 -> AI审AI。

这可不是开玩笑。即将在巴西举办的ICLR 2026就被曝出，去年有**21%**的评审意见疑似是AI写的²。在这种“自动化互评”的螺旋中，哪怕是像Jeff Dean这样的大神，好工作也可能被淹没在海量的垃圾信息里。

“发表或淘汰（Publish or Perish）”的紧箍咒，让大模型成了某些人的造假捷径。正如研究诚信专家Elisabeth Bik所言，这些工具正在降低造假的门槛。

虽然像Gemini这种模型在多模态和实时搜索上强无敌³，ChatGPT-4.5在复杂逻辑推理上依然是老大哥³，但在“学术操守”这块，开发者们显然还有很长的路要走。

如果AI生成的虚假数据进入了医疗或临床决策系统，那后果就不止是“水论文”那么简单了，那是真的会“要命”。

所以，各位在用Grok实时冲浪或者用ChatGPT写代码⁴的时候，记得留个心眼：AI给你的可能不是“灵感”，而是通往学术黑名单的门票（doge）。

引用