TL;DR:
OpenAI研究员Noam Brown提出,随着AI模型能力的演进,单一的基准测试分数已无法衡量其实际性能。未来的评估体系必须将“推理计算量”视为核心变量,以性能—成本曲线全面刻画模型的智能边界与安全风险。
在人工智能的发展史中,我们长期陷入了一种“分数的崇拜”。无论是学术界的MMLU,还是大众视野下的Elo排名,一张写满成绩的排行榜,似乎成了定义一个模型“进化程度”的终极法典。然而,正如OpenAI研究员Noam Brown所警示的那样,当大语言模型从单纯的语义生成演变为复杂问题的推理引擎时,这种将模型能力压缩为单一数字的时代,正在不可逆转地走向终结。1
从“静态得分”到“动态扩展”:技术范式的转移
目前的评测困境在于,模型表现已不再仅仅取决于其内部权重参数的“静止天赋”,更取决于它在推理阶段所愿意投入的“计算深度”。
传统的评测方式存在致命的盲区:它忽略了模型可以通过增加推理token、多次试验、循环校验或引入外部工具来弥补自身能力的不足。这种“测试时计算扩展(Test-time Compute Scaling)”意味着,一个中等规模模型如果拥有足够长的执行时间和算力支持,其解决复杂任务的能力可能远超一个静态的高分模型。2
如Brown所述,未来的评估框架必须转向性能—推理计算量曲线(Performance-Compute Curve)。这不仅是一个统计学意义上的修正,更是一种对“智能本质”的重新定义:智能不仅是答案的获取,更是为了获取正确答案所付出的搜索、试错与优化过程的集合。
商业与治理的十字路口:推理预算的溢出效应
从商业维度看,这种范式转变将直接影响AI产业的投资逻辑。当前的云服务商和模型开发者正试图通过“智能的性价比”来抢占市场。如果评估体系能够清晰展示模型在不同成本区间的表现,企业将不再盲目追求最高分,而是寻找与自身业务需求(如推理延迟、token成本、任务复杂度)最契合的智能等级。3
在安全性评估层面,推理预算的争议则更为深远。如果一个前沿模型在常规评测中表现温和,但在“不计成本”的推理预算支撑下能爆发出远超预期的代码攻击或生物研究能力,那么现有的“负责任扩展政策(RSP)”可能在面对恶意行为者时显得脆弱不堪。4
对未来的审视:当“平台期”成为一个模糊概念
人类社会对AI能力的认知,正处于一个微妙的哲学窗口。过去,我们认为模型存在“性能上限”;而现在,基于长链条推理的研究表明,这一上限往往随着算力的投放而不断后移。当模型可以进行持续的自主研发和自我博弈时,传统的线性能力增长可能呈现出非线性的爆发态势。
这预示着一个必然的趋势:模型能力评测将彻底向工程学和系统论靠拢。 研发机构不仅要公布模型的基础分值,还必须提供一份详尽的“能力说明书”,标注在不同计算预算下模型的风险边界与行为变异特征。
对于开发者与监管者而言,接下来的挑战在于:如何在模型迭代周期极快与安全测试周期极长的矛盾中,建立起一种动态的、外推式的评估标准。正如Brown所建议的,将推理资源纳入评测基准,这不仅是让排行榜变得更科学的努力,更是为了在AGI时代,让我们能够精准地测量出脚下这台超级机器,究竟拥有多大的“思考重量”。5
引用
-
OpenAI科学家Noam Brown:AI的真正上限,可能根本没人测得起·机器之心·作者:关注AI评测的(2026/6/9)·https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651038042&idx=2&sn=80df79cc8eb131e4240e3d4b5540bef1·检索日期2026/6/9 ↩︎
-
大模型测评完全指南:2026 年主流 LLM 评测体系、榜单解读与选型建议·博客园·七牛云行业应用(2026/3/15)·https://www.cnblogs.com/qiniushanghai/p/19664074·检索日期2026/6/9 ↩︎
-
OpenAI科学家震惊TED大会:让AI模型思考20秒,提升10万倍性能!·华尔街见闻·Venturebeat消息(2026/5/20)·https://wallstreetcn.com/articles/3731570·检索日期2026/6/9 ↩︎
-
大模型的评估与选择 — 人工智能实践 0.8 文档·https://ai.gaozhijun.me/5-evaluation/evaluating-llms.html·检索日期2026/6/9 ↩︎
-
推理模型综合测评报告2025·InfoQ·https://www.infoq.cn/minibook/m8t2VZbt18vam8RqCyZ8·检索日期2026/6/9 ↩︎