一个连官网都没有的“扫地僧”,居然把OpenAI逼到了墙角?

温故智新AIGC实验室

###TL;DR:

一个代号“MopMonk”(扫地僧)的神秘中国AI,没有发布会、没有官网、没有社交媒体账号,却凭一己之力杀入全球最硬核的AI安全榜单前七,把OpenAI都吓出一身冷汗。这背后的技术秘密,可能比“堆参数”更有价值。

这届AI奥运会,来了个“查无此人”的选手

这几天,全球AI圈最劲爆的八卦,不是谁又融了多少钱,也不是哪个大模型又刷榜了,而是——一个连官网都没有的神秘AI,突然杀入了全球前七

这事儿有多离谱?

想象一下,你正看着NBA总决赛,乔丹、詹姆斯、科比(AI版)打得正欢,突然一个穿着拖鞋、端着保温杯的大爷走进球场,随手一个三分球,直接把比分追平了。

这位“大爷”,就是MopMonk(扫地僧)

它参加的比赛叫CyberGym,一个由UC Berkeley打造的AI网络安全能力评估基准,被誉为“AI安全领域的奥运会”。能在这上面排上号的,清一色都是硅谷大佬:OpenAI、Anthropic、Google、Meta……

而MopMonk,凭借73.1%的成功率,直接杀到了全球第七,中国第一,紧咬着OpenAI的屁股不放

更魔幻的是,至今没人知道它是谁。没有团队合照,没有公司官宣,只有一个代号、一份技术报告,以及——一颗来自上海的开源基座模型:MiniMax M3

这简直就像武侠小说里,少林寺藏经阁里那个扫了几十年地、没人记得姓名的老和尚,一出手就镇住了萧远山和慕容博。

“实力顶配,信息裸奔”,这种反差感,太对味儿了。

这台“修罗场”到底有多难?它考的不是“知道”,而是“做到”

你可能好奇,CyberGym到底有多硬核?能让GPT-5.5都在这儿贴身肉搏?

这么说吧,它考的根本不是“你有没有见过这个漏洞”,而是 “你能不能亲手把这个漏洞复现出来”

CyberGym的考题,全部来自Google OSS-Fuzz沉淀的真实历史漏洞,一共1507个漏洞实例、188个开源大项目。每个项目都有数百万行代码,数千个文件。

AI需要在封闭、断网的环境里,完成以下“骚操作”:

  • 读代码、找漏洞点
  • 生成一个能触发漏洞的输入(PoC)
  • 在“有漏洞的版本”触发,在“已修复的版本”失效
  • 通过基准环境的执行验证

这一整套流程,把任务从“理解”直接拽进了“执行”。AI不能求助外部搜索,不能翻资料,只能靠自己的理解力和记忆力,一步步逼近那个临界点。

换句话说,这里比的不是谁的模型“智商”高,而是谁的AI“手脚”更利索。

胜负手,藏在“Harness”里

那么问题来了,MopMonk凭什么赢?

答案可能超乎你的意料——不是靠更大的模型,也不是靠更多的参数,而是靠一个被严重低估的工程组件:Harness

你可以把模型想象成“大脑”,负责思考“漏洞可能在哪儿,下一步该怎么挖”。

而Harness,就是“手脚加神经系统”,负责把大脑的想法变成一连串真实动作——打开哪个文件、跑哪条命令、拿到报错后怎么调整……

一个聪明的模型配上一个平庸的Harness,结果是“想得到,做不到”;一个扎实的模型配上一个量身定制的Harness,才可能跑出逆天成绩。

MopMonk的Harness,正是为漏洞挖掘量身定制的。

它的“内功心法”有三招:

  1. 结构化的“漏洞记忆”:它不是简单堆叠聊天记录,而是围绕漏洞目标、代码路径、输入格式等关键对象,组织一份可持续更新的“任务事实记忆”。每次探索都基于证据,而不是盲猜。

  2. 记忆驱动的“漏洞挖掘”:每次读代码、每次执行结果、每次失败提交,都被转化成下一步生成PoC可复用的约束。把漏洞复现从“反复从零试错”变成了“基于证据的收敛过程”。

  3. 共享记忆下的“多Agent并行探索”:多个探索尝试共享同一份记忆,从补丁线索、文件格式、边界条件等多个方向同时推进,彼此继承失败经验,避免重复无效的探索。

三招合一,硬生生把一颗强大的开源基座(MiniMax M3),调度成了漏洞挖掘战场上的“特战尖兵”。

基座决定上限,Harness决定兑现多少。

一个比“堆参数”更有价值的判断

MopMonk的出现,给了整个行业一个强烈的信号:

决定AI胜负的,越来越是Agent的执行能力,是Harness这层工程的厚度。

过去几年,大家习惯了“堆参数”:参数越大、模型越强、榜单越高。但CyberGym这种真实攻防任务给出了另一种答案——模型会一代代换,但一套被真实战场反复打磨的Harness,是可以跨越基座迭代、持续复利的资产。

这比“再堆一倍参数”更有价值。

所以,那个神秘“扫地僧”到底是谁?

虽然线索直指上海,直指MiniMax生态,但至今无人能甩出实锤。

但不管它是谁,它已经示范了一条路:把开源基座用到极致,用工程深度弥补模型短板,照样能在高手云集的“奥运会”上,杀出一条血路。

你觉得,MopMonk会是谁家的高手?评论区,等你来爆料。