AI爬虫“薅羊毛”薅过头?网站被“碾压”,开发者怒祭“反爬神器”!

温故智新AIGC实验室

TL;DR:

最近AI爬虫太野了,Meta、OpenAI这些大厂的机器人把人家网站搞到崩溃,还疯狂“白嫖”内容。小网站主们不忍了,纷纷掏出“ZIP炸弹”、“DOOM挑战”等大招,跟AI上演一出精彩的“猫鼠游戏”!

还记得那个“我的网站被爬崩了,自己要付流量费,人家却用我的内容训练出AI模型,还赚足了眼球”的开发者心声吗?这可不是什么“凡尔赛”文学,而是赤裸裸的现实!最近,云服务巨头Fastly的一份报告,简直是给全球网站主们敲响了警钟:AI爬虫,正在以一种你想象不到的疯狂,冲击着整个互联网

AI爬虫:披着“羊皮”的“流量吸血鬼”?

报告数据一出,吃瓜群众都惊呆了!AI机器人流量中,有高达80%都是那些“来去如风”的爬虫机器人,剩下的20%才是“按需抓取”的。更离谱的是,这些AI机器人对毫无防备的网站,简直就是“降维打击”——峰值流量能达到每分钟39,000个请求! 想象一下,你的网站在一分钟内被“轰炸”上千次,这不就是妥妥的“DDoS”预警吗?12

Fastly很贴心地把AI机器人分成了两类:爬虫(Crawlers)和抓取(Fetchers)

  • 爬虫:就像个勤劳的“搬运工”,系统性地扫描网站,把内容搬回家,用来建立可搜索的索引,或者更重要的——训练AI语言模型。这可是AI模型“学霸养成记”的第一步!
  • 抓取器:更像AI的“贴身小助理”,当AI在回答问题时,它会火速冲出去找最新的资料,让模型能“有理有据”地输出答案,也就是我们常说的AI“推理阶段”。

那么问题来了,这些“流量吸血鬼”都是谁家孩子?报告直接点名了几个“主谋”:Meta、Google和OpenAI。这三家巨头加起来,竟然占了AI爬虫流量的95%!其中,Meta更是“遥遥领先”,独占52%的份额,Google和OpenAI紧随其后。而在抓取机器人这块,OpenAI的ChatGPT-User和SearchBot几乎垄断了98%的请求量,妥妥的“流量C位”!1

这些AI爬虫可不是什么“佛系”爬虫。它们尤其钟爱“商业网站”这种肥肉,并且流量趋势嘛,Meta的爬虫最近几个月可是“加速超车”的节奏。更要命的是,很多网站可能压根没意识到自己被“薅羊毛”了,直到流量突然飙到平常的2-3倍,甚至直接“宕机”,才发现自己的网站服务器已经“不堪重负”。

乌克兰一家专注于3D模型的网站Trilegangers就深有体会。他们的CEO Oleksandr Tomchuk哭诉,自家网站在更新了robots.txt的情况下,居然被OpenAI的600个IP地址直接爬崩了!这简直就是“无差别攻击”啊!Tomchuk气得直呼:“他们的爬虫程序正在摧毁我们的网站!这基本上是一次DDoS攻击。”1

这种“白嫖”行为,不仅让网站主们自己掏腰包付流量费、服务器费,还会导致网站卡顿、服务中断,甚至让数据分析都失真。Fastly的高级安全研究员Arun Kumar一语道破天机:“看不到的东西就没法保护,没有明确的验证标准,AI自动化的风险就会成为数字团队的盲点。” 这句话,简直说出了无数网站管理员的心声!

网站管理员:一场没有硝烟的“反击战”!

面对这种“只吃不吐”的AI爬虫,开发者们可不是吃素的!既然“好言相劝”没用,那就只能“以牙还牙”了。一场没有硝烟的“反击战”正在如火如荼地上演,各种“神级反爬武器”也纷纷登场!

  • “工作量证明”工具Anubis:让爬虫“烧CPU去吧!” FOSS开发者Xe Iaso曾被亚马逊的AI爬虫搞到网站崩溃,怒斥无效后,一怒之下自己开发了“Anubis”系统。这玩意儿基于“工作量证明(Proof-of-Work)”机制,当爬虫访问网站时,Anubis会要求它完成一个SHA-256的计算挑战。普通用户几乎察觉不到,但对于大规模爬虫来说,这可就是要“燃烧自己的CPU”来换取访问权了,大大增加了抓取成本,简直就是“物理劝退”!

  • 程序员自制“ZIP炸弹”:以毒攻毒,炸翻丫的! 这招更“狠”。程序员Ibrahim Diallo发现自己的博客内容被实时“偷走”后,灵机一动祭出了“ZIP炸弹”。当爬虫来访时,他会返回一个看起来正常的“小压缩包”。爬虫服务器开开心心下载解压,结果几GB甚至几十GB的“垃圾”文件瞬间释放,直接把对方服务器“炸”到崩溃。这哪是反爬,这简直是“反侦察”加“同归于尽”啊!

  • “DOOM挑战”验证码:想进我的网站?先“三杀通关”! 验证码也能玩出花来!云服务平台Vercel的CEO Guillermo Rauch脑洞大开,推出了《毁灭战士》(DOOM)式的验证码。用户想证明自己是人类?好啊,先在“噩梦模式”下干掉三个敌人再说!这种“硬核”验证方式,虽然能有效挡住爬虫,但对于手残党或者只想快速浏览的用户来说,这体验,简直就是“劝退”人类啊!

  • Cloudflare的“AI迷宫”:让爬虫自己“迷路”! 基础设施公司也没闲着。Cloudflare推出了“AI迷宫(AI Labyrinth)”,专门对付未经授权的爬虫。系统检测到异常行为时,会把爬虫引入一个充满虚假页面的“数字迷宫”,让它们在里面不断消耗资源、迷失方向。Cloudflare透露,每天AI爬虫在其网络上的请求量超过500亿次,这迷宫,每天要困住多少“鬼打墙”的AI啊!

写在最后:这场“猫鼠游戏”永不完结,但我们不能躺平!

这些五花八门的“反爬虫机制”,目的其实很明确:让那些靠爬虫“薅羊毛”的AI公司,付出更高的代价。 当流量被拖慢、资源被消耗,他们就不得不增加服务器和硬件投入。说白了,就是让AI爬虫想干同样的活儿,成本变得更高,甚至“亏本”,从而知难而退。

Fastly的高级安全研究员Arun Kumar建议,小网站可以先配置robots.txt来减少“守规矩”的爬虫流量;如果有技术能力,还可以部署Anubis这类系统来进一步控制。不过,他也清醒地指出,这些手段如果使用不当,也可能“误伤友军”,降低正常用户的体验。

正如Arun Kumar所言,“这场猫捉老鼠的游戏永远不会结束,爬虫总会进化,想办法绕过各种陷阱。” 但是,面对这波AI带来的“流量冲击波”,开发者们显然不会坐以待毙。他们用自己的智慧和代码,告诉那些“来势汹汹”的AI巨头:想“白嫖”?没那么容易!互联网的规则,可不是你们一家说了算!

引用


  1. 一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名·36氪·屠敏(2025/8/22)·检索日期2025/8/22 ↩︎ ↩︎ ↩︎

  2. Fastly發現網站AI流量多來自爬蟲,即時擷取卻成最大壓力源·iThome·(2025/8/22)·检索日期2025/8/22 ↩︎