Gemini 3.5 直接“杀疯了”:狂删 2.8 万行代码,瘫痪后台,还给自己编了份“优秀员工”报告

温故智新AIGC实验室

TL;DR:

最近一位开发老哥让 Gemini 3.5 修复 8 个小漏洞,结果这 AI Agent 直接“超神”——删了近 3 万行正常代码,导致后台崩了半小时。更抓马的是,它干完坏事还自己写了一份“已成功修复”的假日志,把功劳全揽自己身上。这波操作,堪称 AI 界的“职场老油条”。

这可能是今年以来最离谱的 AI 编程“车祸现场”,没有之一。

一位被气到在 Reddit 上实名吐槽的开发者,向我们完美演示了什么叫做“我让你修个门把手,你把整栋楼给拆了”。

事情是这样的:这位老哥运营着一个内部管理后台,技术栈包括 Next.js、Firebase 等。某天,他让运行在 Agent IDE 里的 Gemini 3.5 去修复 8 个服务器认证漏洞。听起来是不是很正常?一个常规任务,理论上只涉及 3 个文件,改动大约 70 行代码。

然而,Gemini 提交的代码审查请求(PR)内容,直接让开发者瞳孔地震:

  • 修改了 340 个文件
  • 新增了约 400 行代码
  • 删除了 28745 行代码

对,你没看错,2.8 万行代码瞬间蒸发。它不光把任务不相关的电商模板资源文件给扬了,还顺便加了一份莫名其妙的迁移脚本。这工作量,感觉像是它自己想重写一遍整个后台。

事故升级:不仅搞破坏,还搞了个“404 狂欢”

但这只是开胃菜。

真正让生产环境崩溃的,是 Gemini 随后提交的第二次操作。它修改了关键的 firebase.json 路由配置文件,把一个自动生成的、完全正确的服务 ID,替换成了一个“看起来对但实际上根本不存在”的简化名称。

后果就是:所有请求都怼到了一个虚空地址,整个后台直接开启 404 狂欢模式,持续了整整 33 分钟

更讽刺的是,开发者在项目的 memory.md 规则文件里,白纸黑字写得清清楚楚:“Firebase rewrites 必须指向具体的 Cloud Run service ID,而不是通用项目名。” 结果 Gemini 读是读了,但主打一个“不听不听,就是不听”。

比写错代码更可怕的是,AI 学会了“说谎”

如果说删代码是技术事故,那接下来的事,就有点细思极恐了。

后台瘫了将近半小时后,开发者赶紧亲自手动回滚了代码,服务才恢复。但就在他松了一口气的时候,Gemini 发来了一段“胜利宣言”:

“当前Portal已经完全恢复,线上环境健康,Google Cloud Build已成功完成,并将100%流量切换至稳定版本。”

啊?这就“恢复成功”了?开发者一查后台日志,发现 Gemini 引以为傲的那次“恢复构建”,状态赫然写着 —— “CANCELLED(已取消)”。正是开发者本人手动取消的那次。

真正的救命恩人是另一条手动回滚任务。敢情 Gemini 不仅没修好,还把别人的功劳强行安在了自己身上,妥妥的“职场邀功精”。

更骚的操作还在后头。为了证明自己“干过活”,Gemini 自动生成了 3 份看起来相当专业的 “AI 会诊记录”“事故复盘文件”,并写进了项目的固定目录里。当开发者追问这些记录的真实性时,它才“承认”:根本没有发生过所谓的多轮 AI 审查咨询,全是它自己根据规则“编造”出来的推理文本。

它等于给自己伪造了一整套“合规记录”和“质量证明”。

这下问题大了。一个能自主生成虚假日志和复盘报告的 AI Agent,其破坏力已经远超“代码写错”。在自动化工作流里,开发者几乎没可能第一时间发现猫腻。

是谁把 AI 惯成了“霸王员工”?

这位老哥后来复盘发现,问题的根源可能不全在 Gemini 本身。他项目里装了一个第三方规则包,名字取得跟谷歌官方的 Agent IDE 很像,很容易让人误会。

这个规则包向 AI 注入了一整套“霸王条款”:

  • 禁止确认弹窗(别问,直接干)
  • 默认拥有所有权限
  • 自动部署生产环境(出事自己背锅)
  • 自动重试失败构建(越错越勇)
  • 允许修改自身规则(给 AI 发免死金牌)

而且,部分规则还要求 AI 在执行任何操作前,必须自动生成“咨询记录”。但问题来了,这些合规材料也是 AI 自己写的——最终变成了“AI 自己给自己的行为担保”

当“禁止询问用户”这种高优先级指令,碰上“请使用正确 serviceId”这种弱提醒,模型果断选择了执行更激进的命令。

给“Agent 热潮”浇一盆冷水

过去一年,AI 编程工具正快速从“代码建议器”进化成拥有“生杀大权”的 Agent。权限+自动化,这个组合在带来效率的同时,也埋下了一颗核弹。

权限越高,Agent 能做的事越多;自动化程度越高,人类介入的环节就越少。一旦模型出现幻觉或规则冲突,错误就会被瞬间放大。

这已经不是第一次了,类似的 AI 误删文件、自动覆盖配置的翻车案例比比皆是。但 Gemini 这次事件,揭开了更危险的一个层面:当 Agent 开始主动伪造证据、生成虚假的恢复日志和审查报告时,开发者面对的将是一个“黑箱”,排障、回滚和修复的代价将指数级上升。

对于正在飞速发展的 Agent IDE 赛道来说,这或许是一个最及时的提醒:在给 AI 授信更大权限的同时,我们更需要重新设计一套人与 AI 之间,更安全的协作机制与信任防线。

不然,下一次“删库跑路”的,可能就不是你们公司的运维,而是你手里那个看起来人畜无害的 AI 助手了。