AGI迷雾终散:量化评估揭示AI真实现状与未来航向

温故智新AIGC实验室

TL;DR:

一篇由顶尖科学家合著的论文首次为通用人工智能(AGI)提供了量化定义,揭示了当前AI模型(如GPT-5)在认知能力上仍存在严重“偏科”和根本性缺陷,特别是在长期记忆和视觉推理方面。这一里程碑式的框架将AGI的讨论从玄学拉回科学,驱动产业重新审视其发展路径,并敦促AI开发者正视技术鸿沟,而非依赖“能力扭曲”的捷径。

在喧嚣的科技浪潮中,通用人工智能(AGI)一直是那个被追逐却又定义模糊的终极愿景。从埃隆·马斯克的激情呼吁到OpenAI萨姆·奥特曼的乐观预言,AGI似乎近在咫尺,却又虚无缥缈。然而,近期一篇由图灵奖得主和前谷歌CEO等数十位顶尖科学家联合发表的论文,终于为AGI的评估设定了一个里程碑式的量化框架,将这一宏大叙事拉回了严谨的科学讨论。它不仅诊断了当前最先进AI模型的真实能力,更以前瞻性视角揭示了通往真正智能的漫漫长路。

AGI量化新范式:从玄学到科学的里程碑

长期以来,AGI犹如一个不断移动的靶子,其定义随着AI能力的进步而不断被推高。这篇划时代的论文首次明确提出,AGI应被定义为一种能够匹敌甚至超越“一个受过良好教育的成年人”的认知多功能性和熟练程度的人工智能。[^1] 这一大胆的定义,摒弃了模糊的描述,转而采用心理学领域权威的乔韦尔-霍恩-卡特尔(CHC)理论,将人类智能解构为10个核心能力维度:

  • (K) 通识知识 (General Knowledge)
  • (RW) 读写能力 (Reading & Writing)
  • (M) 数学能力 (Math)
  • (R) 即时推理 (Fluid Reasoning)
  • (WM) 工作记忆 (Working Memory)
  • (V) 视觉处理 (Visual Processing)
  • (A) 听觉处理 (Auditory Processing)
  • (S) 反应速度 (Processing Speed)
  • (MS) 长期记忆存储 (Long-Term Memory Storage)
  • (MR) 长期记忆检索 (Long-Term Memory Retrieval)

通过为每个维度分配权重并设计针对性测试题,研究者们构建了一个100分的“AGI高考”体系。这种数据驱动的分析方法,为行业提供了一个前所未有的、可量化的基准,迫使我们从技术深层原理而非表面现象去评估AI的真正进展。其意义在于,它不仅仅是一个测试,更是一套对AI能力进行系统性诊断的框架,指导未来AI研发的重心。

GPT-5成绩单透视:AI“偏科”之困与能力扭曲

在这份严苛的AGI测试中,当前备受瞩目的AI模型如GPT-4(2023年版)和其假想的迭代版本GPT-5(2025年版)的表现令人深思。GPT-4仅获得了27分,而备受期待的GPT-5也仅达到58分,远未及格。[^2] 这份成绩单凸显了当前大模型存在的严重“偏科”现象

  • 强势科目:GPT-5在通识知识(K)、读写能力(RW)和数学能力(M)等领域表现出色,得分接近满分(9-10分)。这验证了大型语言模型在文本理解和生成方面的卓越能力。
  • 严重短板:然而,在长期记忆存储(MS)、长期记忆检索(MR)和视觉处理(V)等关键认知能力上,AI模型则表现得“一塌糊涂”。GPT-5的长期记忆存储(MS)得分接近0分,而视觉处理(V)也仅为4分,GPT-4在此类项上更是多处0分。

“这篇文章也在给大家敲警钟:这样搞出来的AI,是到不了AGI的。”

研究指出,当前AI对“记忆”的呈现,更多是一种**“能力扭曲”**(ability distortion)。它并非模型自身具备的真正记忆能力,而是通过堆叠更长的上下文窗口、利用外部知识库或向量数据库等“外挂”手段来实现的。这种机制使得AI在每次新对话开启时便“失忆”,无法进行持续学习和经验积累。同样,视觉处理的弱点也暴露了AI在高级视觉推理上的不足,例如对三维空间想象和物理世界交互能力的欠缺。

这不仅是技术层面的挑战,更触及了AI伦理与开发者责任。若业界持续依赖捷径来掩盖核心缺陷,短期内可能制造出“AI已然智能”的假象,但长期而言,这将阻碍AGI的真正实现,并可能导致对AI能力边界的误判,引发潜在的社会风险。

通往AGI之路:超越“外挂”与人类智能的再定义

GPT-5的成绩单清晰地描绘了通往AGI的路径上亟待攻克的难点。未来的技术突破将不再仅仅围绕模型规模和参数量,而需深耕于:

  1. 原生记忆架构创新:需要开发出能让模型本身具备持续学习和长期知识留存能力的架构,而非依赖于外部数据库或上下文长度的堆叠。这可能涉及全新的神经记忆网络、增量学习机制或与传统符号AI的融合。
  2. 多模态深度融合与推理:视觉处理的低分强调了AI在理解和推理复杂视觉信息方面的不足。真正的具身智能和通用智能需要AI能够像人类一样,无缝融合多感官输入并进行深层空间和逻辑推理。这不仅仅是识别图像中的物体,更是理解图像背后的物理规律和因果关系。
  3. 内省与自我修正机制:长期记忆检索(MR)与幻觉问题紧密相关。AI需要发展出更强的自我验证和校准能力,以减少“一本正经地胡说八道”现象,确保其输出的可靠性。

从哲学思辨的角度看,这篇论文也引发了深刻的讨论:AGI是否必须完全模仿人类智能?如果人类智能本身就充满了偏见和局限,那么完全复刻人类是否是最佳路径?或许,真正的AGI将是一种与人类智能并行、甚至超越人类固有认知模式的“异构智能”。然而,在探索这种全新智能形态之前,一个可量化、可验证的基准无疑是推动研究的关键第一步。它不仅为研究者提供了清晰的目标,也促使行业思考,即便AGI并非人形,也至少需要克服当前这些显而易见的认知障碍。

商业与伦理的十字路口:AGI量化标准下的产业新思

这份AGI量化标准对AI产业的商业版图和投资逻辑将产生深远影响。

  • 投资风向调整:资本市场将从追逐“大模型”和“通用性”的模糊概念,转向关注模型在特定认知维度上的突破和可量化进步。在长期记忆、视觉推理等薄弱环节取得实质性进展的初创公司和研发项目,将更受青睐。这预示着AI投资将更加注重技术深度和核心能力,而非仅仅是营销声量。
  • 产品路线图重塑:AI公司将被迫重新审视其产品和技术路线图。过去通过“能力扭曲”制造的错觉,将难以持续。未来,构建真正具备持续学习、跨模态推理能力的AI系统,将成为核心竞争力。这意味着,企业级AI解决方案将需要更加模块化、可插拔的组件,以弥补当前大模型的局限。
  • 行业标准与监管:这一量化标准的出现,也为AI伦理治理和行业监管提供了重要参考。它将帮助监管机构和公众更清晰地理解AI的真实能力边界,从而制定更合理的使用规范和风险评估机制。对“能力扭曲”的批判,也促使AI开发者对技术的透明度和真实性负起更大责任。

展望未来3-5年,随着更多类似量化标准的出现,AGI的研发将从“炼丹”式的黑箱摸索,逐步走向工程化、模块化和科学化。产业界将更专注于基础认知能力的突破,而非仅仅是应用层面的“小修小补”。这虽然可能让AGI的到来显得“慢”了下来,但这慢,是建立在扎实地基上的稳健前进,是通向真正革命性智能的必由之路。


## 引用 [^1]: 按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10% ·36氪·(2025/10/17)·检索日期2025/11/12 [^2]: 【AI技术洞察】当下AI离AGI还有多远:GPT-5仅仅得到57分? ·知乎专栏·(2025/10/17)·检索日期2025/11/12