TL;DR:
腾讯首席科学家姚顺雨出手,给全球大模型发了一张“现学现卖”的考卷,结果连最强的 GPT-5.1 也只拿了 23.7 分。事实证明,AI 现在的博学多才大多是靠“死记硬背”,一旦脱离剧本搞实战,全是阿喀琉斯之踵。
还没正式进入春节,国内大模型圈已经开始“卷”起了人情味:腾讯元宝在大派红包,阿里千问在豪请奶茶。这几亿、几十亿的小目标撒下去,热度是有了,但大家心里都清楚,等预算烧完,用户是留下来当回头客,还是拿完羊毛就跑,终究得看产品到底“聪不聪明”。
就在这个节骨眼上,腾讯混元团队联合复旦大学,由去年刚被挖到手的“姚班天才”、前 OpenAI 研究员姚顺雨领衔,发布了一项足以让整个 AI 圈“背脊一凉”的研究。这不仅仅是一个技术基准 CL-bench 的发布,更是对当前全球顶尖 AI 智商的一次公开“处刑”。
技术大揭秘:当 AI 离开“剧本”,瞬间变成“笨蛋”?
我们要理解大模型现在的处境,得先看清它们的生存状态。目前的大模型主要靠两个阶段撑场面:一个是“预训练”,也就是疯狂看书,把互联网上能见到的知识都刻在骨子里;另一个是“情境学习”(In-Context Learning),也就是所谓的上下文处理。
如果说预训练是让 AI 成为一个博览群书的“老学究”,那上下文学习就是考验它能不能“现学现卖”。比如你把公司刚开完会的保密纪要、或者是你自己折腾出的新游戏规则扔给 AI,它在自己的数据库里查不到,就必须根据你提供的这些新信息进行即时推理。
不幸的是,姚顺雨团队的研究发现:上下文,正是 AI 的灵魂,也是它的死穴。 1
在他们构建的 CL-bench 基准中,包含了近 2000 个从未在互联网公开过的、由专家精心构造的“全新情境”——有虚构的法律体系、全新的编程语法。结果如何?目前地表最强的 GPT-5.1 (High) 正确率仅为 23.7%,其他的模型大多在 10%-18% 之间晃悠。2
这就尴尬了。这就好比一个在学校里次次考满分的学霸,进了公司实习,老板给了份新业务说明书,结果他还是按照课本上的老套路瞎指挥。这种“死脑筋”的表现,正是用户吐槽 AI “听不懂人话”或“胡说八道”的根源。
行业“地震”:谁在“背书”,谁在“思考”?
为什么强如 GPT-5.1 也会翻车?研究揭示了几个令人深思的翻车原因:
- “刻板印象”太重:AI 往往抑制不住预训练带来的“肌肉记忆”。比如研究员虚构了一个叫 Skynet(天网)的 SDK,明明文档里写的是代码规则,AI 却可能因为想起《终结者》里的设定而开始胡言乱语。
- “捞针”能力不行:现在的模型号称能吞下几万甚至几十万字,但真正让它从数据海洋里精准找出那一根逻辑针,并进行多步推理时,成功率就呈断崖式下跌。1
- 发现规律比应用规则难:让 AI 照着规则做(演绎)还勉强,让它从一堆实验数据里总结出规律(归纳),任务解决率通常低于 10%。
调侃式点评:现在的 AI 就像那些面试时口若悬河、入职后一写代码就问“这啥意思”的职场小白。它们不是没读过书,它们是太依赖读过的书了。
为了确保测试不被“刷榜”,CL-bench 采用了极其严苛的无污染设计。如果模型不看上下文,盲猜的得分率不到 1%。2 也就是说,想靠“背题库”来通过这次考试,绝无可能。
未来预测:腾讯为什么要啃这块“硬骨头”?
作为腾讯首席 AI 科学家,姚顺雨加入后的首份成绩单选在这个领域,非常有“腾讯特色”。
腾讯的根基是社交(微信、QQ)和内容。这里的对话是连绵不断、碎片化且高度私密的。如果你让 AI 总结一个几百人的群聊重点,或者在长达半年的聊天记录里找某个约定,AI 面临的就是最极端的上下文挑战。如果它只会“背书”,不能精准理解这几百条消息里的独特语境、人际关系和隐含逻辑,那它在社交链路里就是一个只会打断气氛的“显眼包”。
此外,在游戏和企业服务(腾讯会议、企微)场景下,用户需要的也是基于私有文档、即时局势的精准分析,而不是通用的废话。
“在场景中演满分的学生,未必能胜任真实世界的工种。” 1 腾讯显然意识到了,一个能在复杂上下文中保持清醒、逻辑严密的模型,远比一个只会死记硬背的博学机器更有商业价值。
到了 2026 年,大模型如何处理记忆、如何从人类提供的“上下文”中自主学习,将成为竞争的核心。到那时,AI 或许才能真正摆脱“复读机”的帽子,成为真正懂你的助手。
引用
-
刚刚,腾讯姚顺雨团队首个成果发布,揭示大模型真正瓶颈 · 36氪 · 智东西 (2026/2/3) · 检索日期 2026/2/7 ↩︎ ↩︎ ↩︎
-
腾讯姚顺雨团队发布CL-bench研究,揭示大模型上下文学习短板 · 新浪财经 · 财经涂鸦 (2026/2/3) · 检索日期 2026/2/7 ↩︎ ↩︎