人工智能对数据的无止境需求,正以前所未有的规模冲击着全球学术知识库,导致服务器瘫痪、研究受阻,并暴露出数字时代知识共享与保护的深层矛盾。这场“数字蝗灾”不仅威胁着开放获取的科研命脉,更对AI自身的可持续发展及其训练数据的未来提出了严峻挑战。
在数字时代的浩瀚知识海洋中,学术网站本应是宁静而富饶的港湾。然而,正如《自然》杂志近日深入披露的那样,一场由人工智能(AI)“数据饥渴症”引发的“数字蝗灾”,正以惊人的速度席卷这些宝库,让全球的知识共享体系面临前所未有的压力,甚至濒临崩溃1。从拥有数百万张珍贵物种照片的DiscoverLife,到权威医学期刊出版商BMJ,无数次异常的、侵略性的爬虫访问,正将服务器拖入瘫痪的泥沼,严重干扰了研究人员的正常工作,并对开放获取(Open Access)的科研生态系统构成了根本性威胁。
数字“蝗灾”:AI数据饥渴症的深层机制
传统意义上的网络爬虫并非新鲜事物,它们是搜索引擎索引互联网内容的基石。然而,随着生成式AI的爆炸式崛起,一种新型的、_“饥渴”且“无视规则”的爬虫大军正以前所未有的规模涌入学术领域。这些“坏爬虫”与早期的信息搜集者有着本质的区别:它们的目标并非为了信息检索,而是为了“喂食”_日益庞大且对高质量数据极度依赖的AI模型,特别是大型语言模型(LLM)和图像生成器2。
为何学术网站会成为AI的“金矿”?答案在于其内容的_权威性、新鲜度与结构化_程度。与零散的互联网数据相比,期刊论文、研究数据库和开放知识库提供了经过同行评审、主题明确、格式规范的高价值信息。正如网络服务提供商Cloudflare的副总裁Will Allen所指出:“如果你的内容新颖或相关度高,对构建AI聊天机器人的开发者来说就是无价之宝。”2
这些AI爬虫的行为模式也极具侵略性。它们往往通过匿名IP地址进行操作,擅长绕过付费墙,甚至公然无视网站管理员通过robots.txt
文件设定的访问规则。Wiley出版社就曾发现,爬虫试图获取其订阅内容,并因此在4月份发布声明,强调未经授权的非法爬取是不可接受的2。这种“只取不予”的掠夺式行为,使得学术机构的服务器不堪重负,运营成本飙升,最终影响了真正的人类用户获取知识的权利。BMJ的首席技术官Ian Mulvany坦言,其网站上的爬虫机器人流量已超过了真实用户的流量,导致服务中断2。
知识库的脆弱性与未来的挑战
这场“数字蝗灾”对全球学术基础设施的打击是广泛而深远的。开放获取知识库联合会(COAR)在今年4月的一项调查中揭示了令人震惊的数字:在其调查的66个成员中,_超过90%_的知识库曾遭遇AI爬虫抓取内容,其中大约_三分之二_的成员因此经历了服务中断31。COAR执行主任Kathleen Shearer表示,尽管开放获取的宗旨是欢迎内容被再利用,但“有些爬虫过于激进,正造成宕机等严重运营问题。”2
除了即时的服务中断,更令人担忧的是长期影响。对于那些资源有限的小型学术机构和数据库而言,持续应对这种流量激增无疑是巨大的经济负担。德国斯图加特国家自然历史博物馆的动物学家Michael Orr警告称:“如果这些问题得不到解决,一些小型机构可能会彻底消失。”2这意味着,许多独特、小众但极其重要的专业知识库,可能在AI数据饥渴症的冲击下走向消亡,从而造成人类知识的不可逆损失。
这场危机也折射出AI发展的一个深层矛盾:其高速进步所需的“燃料”——高质量数据,正面临枯竭的风险。一项具有广泛影响力的研究预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模45。换句话说,大约在四年内,AI可能_耗尽_可用于训练的数据。如果AI模型持续以无序、侵略性的方式掠夺现有知识,不仅会摧毁赖以生存的“土壤”,最终也会发现自身“无米下锅”。
困境中的博弈与多方应对
面对爬虫洪流,学术网站正在努力自救,但这条路异常艰难。一种常见的方法是设置robots.txt
文件,告知机器人哪些行为被允许或禁止,但“坏爬虫”往往无视这些规则。另一种全面封禁爬虫类似行为的做法,又可能误伤合法用户——例如,学者常通过代理服务器访问期刊,这使得大量请求可能来自同一个IP地址,与机器人行为十分相似2。BMJ的Mulvany强调:“我们得找到一个平衡点,既要保护网站不被流量激增搞崩,又不能影响用户正常访问这些资源。”2
目前,Cloudflare和PSI公司等安全服务提供商正在努力识别和区分“善意”与“恶意”爬虫,以帮助网站进行有针对性的防御。然而,新型AI爬虫的不断涌现,使得完全遏制变得异常困难,这更像是一场永无止境的猫鼠游戏。
这场危机迫切需要全球范围内的合作与共识。Michael Orr的呼吁极具前瞻性:“我们急需国际上达成关于AI公平使用和尊重这类资源的协议。否则,长远来看,这些工具将找不到可用的训练资源。”2这意味着,仅仅依靠技术手段进行防御是远远不够的,我们必须超越技术层面,在伦理、法律和国际合作层面建立新的规范和框架。这不仅是为了保护现有的知识生态系统,更是为了确保AI的健康、可持续发展,以及人类知识的未来能够继续以开放、可访问的方式传承下去。否则,我们可能会看到一个讽刺的结局:AI在“吃光”所有数据后,陷入了自身的“大饥荒”。
References
-
Nature. (2025/6/17)。Nature警告:AI「数据饥渴症」引爆学术宕机潮,90%知识库濒临崩盘。Nature。检索日期2025/6/17。 ↩︎ ↩︎
-
犀牛。(2025/6/17)。Nature警告:AI「数据饥渴症」引爆学术宕机潮,90%知识库濒临崩盘。新智元(36氪经授权发布)。检索日期2025/6/17。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
COAR. (2024/4/XX)。Open repositories are being profoundly impacted by AI bots and other crawlers—results of a COAR survey。COAR。检索日期2025/6/17。 ↩︎
-
Nature. (2024/12/14)。The AI revolution is running out of data. What can researchers do?。Nature。检索日期2025/6/17。 ↩︎
-
(2024/12/14)。Nature研究报告:AI革命的数据正在枯竭,研究人员该怎么办?。网易号(科技智库)。检索日期2025/6/17。 ↩︎