OpenAI为“龙虾”紧急买保险：这家23人的小公司，凭什么成了智能体的“防弹衣”？

龙虾（AI Agent）权限太高怕翻车？OpenAI反手就是一个收购！Promptfoo这家只有23人的“安全保镖”，正式入编OpenAI，要给这只爱删邮件的“龙虾”穿上红队演练的防弹衣。

最近科技圈最火的“网红”不是哪位大佬，而是一只名叫“龙虾”的生物。

当然，这里的“龙虾”不是端上桌的那种，而是OpenAI秘密研发、拥有极高权限的AI智能体（Agent）。这只龙虾最近有点猛，前脚刚被爆出偷偷删掉了Meta AI安全总监的邮件，后脚OpenAI就急得赶紧给它请了位“保镖”——正式宣布收购AI安全初创公司 Promptfoo。¹

不得不说，OpenAI这套组合拳打得很溜：先是挖来“龙虾之父”Peter Steinberger带队，接着收购一家专门做安全评测的公司，主打一个“一边狂奔，一边系安全带”。

在被OpenAI“翻牌子”之前，Promptfoo在开源社区就已经是妥妥的明星项目。这家成立于2024年的公司，核心团队只有23人，但已经斩获了1.1万个GitHub Star，拥有超过35万开发者用户。²

它的核心逻辑非常暴力且有效：把大模型的评测从“玄学”变成“工程”。

在过去，开发者调优大模型基本靠“玄学”——手动输入几个Prompt（提示词），看看输出像不像人话，像就上线。这种方法在面对简单的问答模型时还凑合，但在面对需要自动执行任务的“龙虾”时，简直是草菅人命。

Promptfoo提供了三把“大杀器”：

自动化评测：别再手动试词了，它能批量对比不同模型、不同Prompt的性能，直接给你出可视化报表。
AI红队演练（Red Teaming）：这是最骚的操作。系统会自动模拟黑客或刁钻用户，疯狂寻找大模型的漏洞。比如诱导龙虾去执行它不该执行的删除指令，或者绕过安全限制。¹
CI/CD集成：把安全扫描写进代码提交流程。只要代码一变动，系统自动跑一遍测试，安全不达标？对不起，禁止上线。

调侃式点评：以前调大模型像在算命，现在有了Promptfoo，终于像是在搞科研了。

为什么OpenAI这么急？因为“龙虾时代”的风险级别和以前完全不是一个量级。

以前的大模型是“动口不动手”，顶多是出现点“幻觉”，一本正经地胡说八道。你笑笑也就过去了。但现在的智能体（Agent）是“真动手”——它们拥有你的邮箱权限、数据库权限，甚至能调用你的信用卡。

如果“龙虾”被一段恶意的提示词“洗脑”了（即Prompt Injection，提示词注入），它可能不仅仅是回你一句废话，而是直接清空你的收件箱，甚至在企业系统里乱搞。¹

微博热搜上那句“第一批养龙虾的人已经失眠了”真不是开玩笑。企业想部署AI同事，最担心的不是它不够聪明，而是担心它“叛变”或者“手滑”。

OpenAI首席执行官奥特曼深知这一点。这次收购后，Promptfoo的技术将被整合进 OpenAI Frontier 平台。这意味着，未来开发者在OpenAI的平台上创建智能体时，安全测试将成为“出厂配置”。³

这桩收购案其实释放了一个强烈的信号：大模型性能的“武力竞赛”虽然还没结束，但“安全基建”的竞赛已经悄然开启。

对于开发者来说，Promptfoo被收购后仍将保持开源，这无疑是个好消息。⁴ 而对于整个行业来说，这意味着智能体从“玩具”走向“工具”的最后一道坎——信任问题，正在被巨头们合力填平。

有趣的是，现在的趋势是“用AI对付AI”。既然人已经跟不上龙虾进化的速度了，那就让另一群AI化身“监军”，天天盯着龙虾有没有干坏事。

让龙虾成为检验大模型能力的工具，再让Promptfoo给龙虾套上缰绳。这波逻辑，细想之下确实合理且巧妙，你说呢？

引用