重构人工智能的尺度：为什么「推理预算」将取代单一分数成为衡量智能的新基准

TL;DR：

OpenAI研究员Noam Brown提出，随着AI模型能力的演进，单一的基准测试分数已无法衡量其实际性能。未来的评估体系必须将“推理计算量”视为核心变量，以性能—成本曲线全面刻画模型的智能边界与安全风险。

在人工智能的发展史中，我们长期陷入了一种“分数的崇拜”。无论是学术界的MMLU，还是大众视野下的Elo排名，一张写满成绩的排行榜，似乎成了定义一个模型“进化程度”的终极法典。然而，正如OpenAI研究员Noam Brown所警示的那样，当大语言模型从单纯的语义生成演变为复杂问题的推理引擎时，这种将模型能力压缩为单一数字的时代，正在不可逆转地走向终结。¹

从“静态得分”到“动态扩展”：技术范式的转移

目前的评测困境在于，模型表现已不再仅仅取决于其内部权重参数的“静止天赋”，更取决于它在推理阶段所愿意投入的“计算深度”。

传统的评测方式存在致命的盲区：它忽略了模型可以通过增加推理token、多次试验、循环校验或引入外部工具来弥补自身能力的不足。这种“测试时计算扩展（Test-time Compute Scaling）”意味着，一个中等规模模型如果拥有足够长的执行时间和算力支持，其解决复杂任务的能力可能远超一个静态的高分模型。²

如Brown所述，未来的评估框架必须转向性能—推理计算量曲线（Performance-Compute Curve）。这不仅是一个统计学意义上的修正，更是一种对“智能本质”的重新定义：智能不仅是答案的获取，更是为了获取正确答案所付出的搜索、试错与优化过程的集合。

商业与治理的十字路口：推理预算的溢出效应

从商业维度看，这种范式转变将直接影响AI产业的投资逻辑。当前的云服务商和模型开发者正试图通过“智能的性价比”来抢占市场。如果评估体系能够清晰展示模型在不同成本区间的表现，企业将不再盲目追求最高分，而是寻找与自身业务需求（如推理延迟、token成本、任务复杂度）最契合的智能等级。³

在安全性评估层面，推理预算的争议则更为深远。如果一个前沿模型在常规评测中表现温和，但在“不计成本”的推理预算支撑下能爆发出远超预期的代码攻击或生物研究能力，那么现有的“负责任扩展政策（RSP）”可能在面对恶意行为者时显得脆弱不堪。⁴

对未来的审视：当“平台期”成为一个模糊概念

人类社会对AI能力的认知，正处于一个微妙的哲学窗口。过去，我们认为模型存在“性能上限”；而现在，基于长链条推理的研究表明，这一上限往往随着算力的投放而不断后移。当模型可以进行持续的自主研发和自我博弈时，传统的线性能力增长可能呈现出非线性的爆发态势。

这预示着一个必然的趋势：模型能力评测将彻底向工程学和系统论靠拢。 研发机构不仅要公布模型的基础分值，还必须提供一份详尽的“能力说明书”，标注在不同计算预算下模型的风险边界与行为变异特征。

对于开发者与监管者而言，接下来的挑战在于：如何在模型迭代周期极快与安全测试周期极长的矛盾中，建立起一种动态的、外推式的评估标准。正如Brown所建议的，将推理资源纳入评测基准，这不仅是让排行榜变得更科学的努力，更是为了在AGI时代，让我们能够精准地测量出脚下这台超级机器，究竟拥有多大的“思考重量”。⁵

引用

OpenAI科学家Noam Brown：AI的真正上限，可能根本没人测得起·机器之心·作者：关注AI评测的（2026/6/9）·https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651038042&idx=2&sn=80df79cc8eb131e4240e3d4b5540bef1·检索日期2026/6/9 ↩︎
大模型测评完全指南：2026 年主流 LLM 评测体系、榜单解读与选型建议·博客园·七牛云行业应用（2026/3/15）·https://www.cnblogs.com/qiniushanghai/p/19664074·检索日期2026/6/9 ↩︎
OpenAI科学家震惊TED大会：让AI模型思考20秒，提升10万倍性能！·华尔街见闻·Venturebeat消息（2026/5/20）·https://wallstreetcn.com/articles/3731570·检索日期2026/6/9 ↩︎
大模型的评估与选择 — 人工智能实践 0.8 文档·https://ai.gaozhijun.me/5-evaluation/evaluating-llms.html·检索日期2026/6/9 ↩︎
推理模型综合测评报告2025·InfoQ·https://www.infoq.cn/minibook/m8t2VZbt18vam8RqCyZ8·检索日期2026/6/9 ↩︎