智能的计价单位:当“推理预算”重构AI的能力边界与权力版图

温故智新AIGC实验室

TL;DR:

OpenAI研究员Noam Brown指出,当前AI排行榜基于单一分数的逻辑已失效,因为模型能力本质上是推理计算量的函数。未来AI竞争将转向“性能-成本”曲线,这不仅重塑了技术评估体系,更将超级智能的演进从架构创新转变为一场资本与算力的长期博弈。

从“单点跑分”到“曲线博弈”

长期以来,人工智能的发展被压缩在一张张简洁的基准测试表格中。无论模型架构如何更迭,行业习惯于以一个单一分数作为“智力”的终极衡量标准。然而,OpenAI的Noam Brown近期发出的警示,揭示了这一范式的严重滞后:我们一直试图在忽略“变量”的情况下,去比较不同模型的“常数”。1

AI的真实能力表现,已不再仅取决于模型本身的参数规模,而在于其在推理阶段被投入了多少算力资源。 当我们看到GPT-5.5在测试中表现出与GPT-5.4看似细微的差异,却在实际复杂应用中展现出“代际跨越”时,这不仅是模型微调的结果,更是推理时计算(Inference-time Compute)差异的体现。

技术原理与能力上限的漂移

在传统的神经网络推理中,算力消耗相对恒定。但随着o1及后续模型的出现,“推理时计算”——即让模型通过多次搜索、逻辑检查、并行路径探索来修正答案——已成为提升智能水平的“核动力”。2

  • 性能高原期的消失:研究表明,模型在复杂任务上的性能提升随推理计算量的增加呈现对数线性关系。对于强模型而言,性能的高原期被大幅推迟,这意味着只要舍得投入算力,模型的能力边界几乎可以无限延伸。
  • 测量的困境:当评估任务变得极其复杂,且需要极大的推理预算时,主流评测机构往往因为成本过高而选择“截断”。这导致了一个荒诞的现实:我们引以为傲的排行榜,仅测量了模型能力的“冰山一角”。

产业生态与商业版图的剧变

这一发现对商业领域产生的影响是深远且残酷的。若智能成为一种可以用美元精确标价的连续函数,那么AI产业的竞争逻辑将彻底重写:

  1. 算力成为唯一的硬通货:在此前,模型能力是竞争的核心;在未来,谁能以更低的单位成本支持更长的推理链条,谁就掌握了定义“超级智能”的权力。
  2. ToB领域的定价逻辑重构:企业级应用将从“按调用次数收费”转向“按推理复杂度和算力预算收费”。这种商业模式的变化,将促使开发者从追求“快速响应”转向追求“高精度推理”。
  3. 安全评估的“预算陷阱”:目前的AI安全框架大多基于默认配置进行风险防御。但如果攻击者愿意投入百万美元级别的推理预算,现有的安全边界可能瞬间崩塌。未来的安全治理,必须将“攻击者预算”纳入强制评估范畴。3

走向“二维时代”的文明启示

当智能的获取变成一种算力消耗的函数,我们对“超级智能(ASI)”的认知也必须从哲学范畴回归到工程与经济范畴。ASI可能并不表现为一个突发的奇点,而是一条永无止境的爬升曲线。

这种变化预示着一种全新的社会不平等:智能的获取将伴随着巨大的经济成本差异。 在未来,能够负担得起“高预算推理”的机构,将通过AI获得远超普通人的认知能力。正如Brown所言,AI的发展正告别单一指标的简单时代,步入需要动态权衡、精细化资源管理和多维度评测的复杂生态系统。

未来展望

我们正处于AI评测“二维时代”的开端。未来3-5年内,我们预见:

  • 评估标准进化:所有权威的Benchmark将强制要求标注推理Token数及预算限制。4
  • 智能民主化与分层:算力优化技术将成为缩小“智能鸿沟”的关键,确保高效的推理算法成为开源界的下一个竞争高地。
  • 动态风险评估:监管机构将建立基于“外推法”的风险预警机制,针对高预算下的极端能力进行常态化压力测试。

对于开发者与决策者而言,现在的核心挑战不再是如何跑出更高的分,而是如何画出一条属于自己模型的、具备最佳性价比的“性能-成本曲线”。


引用


  1. OpenAI科学家Noam Brown:AI的真正上限,可能根本没人测得起·36氪·36氪编辑部(2026/6/11)·检索日期2026/6/11 ↩︎

  2. OpenAI推理之父掀桌:AI真·满血的样子,你没钱见·新智元·摩西(2026/6/11)·检索日期2026/6/11 ↩︎

  3. OpenAI 研究员Noam Brown 指出,随着AI 模型性能的提升,衡量 ...·X (Twitter)·0xLogicrw(2026/6/11)·检索日期2026/6/11 ↩︎

  4. OpenAI推理之父掀桌:AI真·满血的样子,你没钱见! - 搜狐·搜狐·新智元(2026/6/11)·检索日期2026/6/11 ↩︎