谁说中国Agent只会聊天?Feeling AI反超Anthropic,在OpenAI家门口“踢馆”成功!

温故智新AIGC实验室

TL;DR:

中国团队Feeling AI带着CodeBrain-1在AI圈“春晚”前夕炸场了!在号称Agent界“魔鬼训练场”的Terminal-Bench 2.0榜单中,它直接反超Anthropic,紧贴OpenAI最新旗舰位居全球第二。不只是能写代码,它还是个会自我修正、自带“群体记忆”的实战型老司机。

在中国农历春节的前夜,当大家都在忙着抢红包、囤年货时,全球科技圈的硝烟味却比爆竹味还浓。就在OpenAI和Anthropic为了“谁才是大模型之王”打得不可开交时,一匹来自中国的“黑马”斜刺里杀出,直接在Agentic AI(智能体)的全球高地上插上了旗帜。1

这个名叫Feeling AI的初创团队,凭借其自研的CodeBrain-1框架,在斯坦福大学与Laude Institute联合打造的权威评测基准Terminal-Bench 2.0中一战封神。2 战绩如何?72.9%的胜率,全球第二!除了坐在王座上的OpenAI GPT-5.3-Codex官配(Simple Codex),强如Anthropic的Claude Opus 4.6也被它甩在了身后。3

这可不是那种靠“刷分”堆出来的虚火。Terminal-Bench 2.0被公认为AI智能体在真实命令行(CLI)环境下的“金标准”。在这个环境里,AI没有纸上谈兵的机会,必须在真实的Linux容器里完成编译、调试、甚至部署。4

正如NVIDIA首席科学家Jim Fan所言:“真实的终端环境是AI的‘魔鬼训练场’。” 调侃式点评:这就像是把只会考满分的学霸直接扔进深山老林搞荒野求生,没点“动手能力”的AI分分钟得宕机。

技术大揭秘:这颗“进化大脑”到底装了什么?

CodeBrain-1之所以能硬刚硅谷巨头,核心在于它不仅仅是个“更会说话”的聊天机器人,而是一个具备动态规划能力的执行型大脑

在传统的Agent架构中,AI经常会遇到两个尴尬:要么是“废话太多,干活太少”,要么是“一出错就傻眼”。CodeBrain-1针对这两个痛点精准开刀:

  1. Useful Context Searching(信息脱水机): 它通过LSP(语言服务器协议)精准搜索真正相关的代码和文档。当它需要调用一个复杂的API时,它不会盲目地吞下整个文档,而是只找相关的接口签名和使用实例,极大减少了大模型的“幻觉”现象。1
  2. Validation Feedback(硬核纠错): 这才是真功夫。当代码报错时,它不是简单的重新生成,而是从报错信息中高效定位问题,补齐缺失文档,完成从“生成”到“验证”的极速闭环。

简单来说,CodeBrain-1就像是一个不仅带着导航仪,还随身携带急救包的特种兵,遇到路障能绕路,受了伤能自愈。

行业“地震”:AI不再是只会写诗的文青

这次Feeling AI的出彩,标志着AI竞赛的逻辑已经变了:从单纯的“参数博弈”转向了**“实战进化”**。5 以往我们看模型好不好,看它写诗顺不顺、翻译准不准;现在,我们要看它能不能在闭环环境中自我修正,能不能在长程任务中不掉链子。

更有意思的是,Feeling AI还展示了CodeBrain-1在游戏场景中的“骚操作”。1 比如在开放世界游戏中,玩家一句话“帮我造把镐子”,Bot就能自动规划资源采集、工作台制作等一系列连贯动作。更绝的是其“群体记忆”能力:在对战游戏中,如果玩家老是走同一条路线,敌对AI小队会通过共享记忆记住你的习惯,并在下次“预判”你的走位,高喊一声“抓到你了!”

调侃式点评:以后打游戏可能不只是被AI的数值碾压,还要被AI的智商羞辱,这画面太美我不敢看。

未来预测:下一个“风口”是框架定义者

目前看来,OpenAI和Anthropic虽然占据了底座模型的制高点,但在**“模型如何落地”**的下半场,中国团队找到了独特的切入点。CodeBrain-1的成功证明了:一个能够深度驾驭、精准调度顶尖模型的中国框架,才是AI时代的核心智能中枢。

无论是用于Agentic Memory(智能体记忆)的MemBrain,还是提升执行成功率的CodeBrain,Feeling AI都在试图定义未来大模型的工程标准。1 在“重塑工作流”的战略高地上,中国创业者正在用硬核的工程响应速度,跨越从“对话玩具”到“生产力工具”的那道鸿沟。

正如Sam Altman所言,AI已进化为能执行所有专业计算机操作的“全能代理”。1 既然底座已经是全球共享的技术基础设施,那么谁能把这个底座使得最顺手、调度得最聪明,谁就能掌握未来商业化竞争的主动权。这一次,中国团队没打算走捷径,而是选择了死磕工程硬功。

引用


  1. 硬刚OpenAI,中国团队杀入Agentic AI全球前二,一战封神 · 36氪 · 新智元 (2026/2/11) · 检索日期2026/2/11 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. AI+代码混合控制- 源码七号站- AI&自媒体&电商&开源源码等学习交流 ... · 源码七号站 (2026/2/4) · 检索日期2026/2/11 ↩︎

  3. 发布于『2026年02月』的所有存档- 源码七号站- AI&自媒体&电商 ... · 源码七号站 (2026/2/4) · 检索日期2026/2/11 ↩︎

  4. 比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二! · 51CTO · 51CTO (2026/2/11) · 检索日期2026/2/11 ↩︎

  5. 机器之心Pro - 网易 · 网易 · 机器之心 (2026/2/11) · 检索日期2026/2/11 ↩︎