AI爬虫“薅羊毛”薅过头？网站被“碾压”，开发者怒祭“反爬神器”！

TL;DR：

最近AI爬虫太野了，Meta、OpenAI这些大厂的机器人把人家网站搞到崩溃，还疯狂“白嫖”内容。小网站主们不忍了，纷纷掏出“ZIP炸弹”、“DOOM挑战”等大招，跟AI上演一出精彩的“猫鼠游戏”！

还记得那个“我的网站被爬崩了，自己要付流量费，人家却用我的内容训练出AI模型，还赚足了眼球”的开发者心声吗？这可不是什么“凡尔赛”文学，而是赤裸裸的现实！最近，云服务巨头Fastly的一份报告，简直是给全球网站主们敲响了警钟：AI爬虫，正在以一种你想象不到的疯狂，冲击着整个互联网。

AI爬虫：披着“羊皮”的“流量吸血鬼”？

报告数据一出，吃瓜群众都惊呆了！AI机器人流量中，有高达80%都是那些“来去如风”的爬虫机器人，剩下的20%才是“按需抓取”的。更离谱的是，这些AI机器人对毫无防备的网站，简直就是“降维打击”——峰值流量能达到每分钟39,000个请求！ 想象一下，你的网站在一分钟内被“轰炸”上千次，这不就是妥妥的“DDoS”预警吗？¹²

Fastly很贴心地把AI机器人分成了两类：爬虫（Crawlers）和抓取（Fetchers）。

爬虫：就像个勤劳的“搬运工”，系统性地扫描网站，把内容搬回家，用来建立可搜索的索引，或者更重要的——训练AI语言模型。这可是AI模型“学霸养成记”的第一步！
抓取器：更像AI的“贴身小助理”，当AI在回答问题时，它会火速冲出去找最新的资料，让模型能“有理有据”地输出答案，也就是我们常说的AI“推理阶段”。

那么问题来了，这些“流量吸血鬼”都是谁家孩子？报告直接点名了几个“主谋”：Meta、Google和OpenAI。这三家巨头加起来，竟然占了AI爬虫流量的95%！其中，Meta更是“遥遥领先”，独占52%的份额，Google和OpenAI紧随其后。而在抓取机器人这块，OpenAI的ChatGPT-User和SearchBot几乎垄断了98%的请求量，妥妥的“流量C位”！¹

这些AI爬虫可不是什么“佛系”爬虫。它们尤其钟爱“商业网站”这种肥肉，并且流量趋势嘛，Meta的爬虫最近几个月可是“加速超车”的节奏。更要命的是，很多网站可能压根没意识到自己被“薅羊毛”了，直到流量突然飙到平常的2-3倍，甚至直接“宕机”，才发现自己的网站服务器已经“不堪重负”。

乌克兰一家专注于3D模型的网站Trilegangers就深有体会。他们的CEO Oleksandr Tomchuk哭诉，自家网站在更新了robots.txt的情况下，居然被OpenAI的600个IP地址直接爬崩了！这简直就是“无差别攻击”啊！Tomchuk气得直呼：“他们的爬虫程序正在摧毁我们的网站！这基本上是一次DDoS攻击。”¹

这种“白嫖”行为，不仅让网站主们自己掏腰包付流量费、服务器费，还会导致网站卡顿、服务中断，甚至让数据分析都失真。Fastly的高级安全研究员Arun Kumar一语道破天机：“看不到的东西就没法保护，没有明确的验证标准，AI自动化的风险就会成为数字团队的盲点。” 这句话，简直说出了无数网站管理员的心声！

网站管理员：一场没有硝烟的“反击战”！

面对这种“只吃不吐”的AI爬虫，开发者们可不是吃素的！既然“好言相劝”没用，那就只能“以牙还牙”了。一场没有硝烟的“反击战”正在如火如荼地上演，各种“神级反爬武器”也纷纷登场！

“工作量证明”工具Anubis：让爬虫“烧CPU去吧！” FOSS开发者Xe Iaso曾被亚马逊的AI爬虫搞到网站崩溃，怒斥无效后，一怒之下自己开发了“Anubis”系统。这玩意儿基于“工作量证明（Proof-of-Work）”机制，当爬虫访问网站时，Anubis会要求它完成一个SHA-256的计算挑战。普通用户几乎察觉不到，但对于大规模爬虫来说，这可就是要“燃烧自己的CPU”来换取访问权了，大大增加了抓取成本，简直就是“物理劝退”！
程序员自制“ZIP炸弹”：以毒攻毒，炸翻丫的！ 这招更“狠”。程序员Ibrahim Diallo发现自己的博客内容被实时“偷走”后，灵机一动祭出了“ZIP炸弹”。当爬虫来访时，他会返回一个看起来正常的“小压缩包”。爬虫服务器开开心心下载解压，结果几GB甚至几十GB的“垃圾”文件瞬间释放，直接把对方服务器“炸”到崩溃。这哪是反爬，这简直是“反侦察”加“同归于尽”啊！
“DOOM挑战”验证码：想进我的网站？先“三杀通关”！ 验证码也能玩出花来！云服务平台Vercel的CEO Guillermo Rauch脑洞大开，推出了《毁灭战士》（DOOM）式的验证码。用户想证明自己是人类？好啊，先在“噩梦模式”下干掉三个敌人再说！这种“硬核”验证方式，虽然能有效挡住爬虫，但对于手残党或者只想快速浏览的用户来说，这体验，简直就是“劝退”人类啊！
Cloudflare的“AI迷宫”：让爬虫自己“迷路”！ 基础设施公司也没闲着。Cloudflare推出了“AI迷宫（AI Labyrinth）”，专门对付未经授权的爬虫。系统检测到异常行为时，会把爬虫引入一个充满虚假页面的“数字迷宫”，让它们在里面不断消耗资源、迷失方向。Cloudflare透露，每天AI爬虫在其网络上的请求量超过500亿次，这迷宫，每天要困住多少“鬼打墙”的AI啊！

写在最后：这场“猫鼠游戏”永不完结，但我们不能躺平！

这些五花八门的“反爬虫机制”，目的其实很明确：让那些靠爬虫“薅羊毛”的AI公司，付出更高的代价。 当流量被拖慢、资源被消耗，他们就不得不增加服务器和硬件投入。说白了，就是让AI爬虫想干同样的活儿，成本变得更高，甚至“亏本”，从而知难而退。

Fastly的高级安全研究员Arun Kumar建议，小网站可以先配置robots.txt来减少“守规矩”的爬虫流量；如果有技术能力，还可以部署Anubis这类系统来进一步控制。不过，他也清醒地指出，这些手段如果使用不当，也可能“误伤友军”，降低正常用户的体验。

正如Arun Kumar所言，“这场猫捉老鼠的游戏永远不会结束，爬虫总会进化，想办法绕过各种陷阱。” 但是，面对这波AI带来的“流量冲击波”，开发者们显然不会坐以待毙。他们用自己的智慧和代码，告诉那些“来势汹汹”的AI巨头：想“白嫖”？没那么容易！互联网的规则，可不是你们一家说了算！

引用

一分钟3.9万次请求，网站被AI爬虫“碾压”，Meta和OpenAI遭点名·36氪·屠敏（2025/8/22）·检索日期2025/8/22 ↩︎ ↩︎ ↩︎
Fastly發現網站AI流量多來自爬蟲，即時擷取卻成最大壓力源·iThome·（2025/8/22）·检索日期2025/8/22 ↩︎