TL;DR:
图灵奖得主Yoshua Bengio等提出一套权威且可量化的通用人工智能(AGI)新定义与评估框架,将AGI锚定为“媲美或超越受过良好教育成年人的认知多样性与熟练度”。在此框架下,即使是GPT-5也仅达到57%的水平,暴露出当前AI在核心认知能力上的显著缺陷,警示行业需警惕“通用智能幻觉”,并重新聚焦基础能力突破。
通用人工智能(Artificial General Intelligence, AGI)的愿景,作为人类历史上最具变革潜力的技术突破之一,长期以来却被笼罩在一片模糊的定义之中。这种语义上的不确定性,使得业界对于“我们离AGI还有多远”的判断,时常游走于过度乐观与盲目悲观之间。如今,这一局面正迎来一次里程碑式的拨乱反正。由人工智能安全中心(CAIS)主任Dan Hendrycks、图灵奖得主Yoshua Bengio以及众多顶尖学者与企业家联合提出的新AGI定义与量化评估框架,为我们提供了前所未有的清晰度,并以严谨的数据揭示了当前AI——包括最先进的GPT-5——与真正AGI之间的巨大鸿沟。
技术原理与创新点解析
这项开创性的工作,核心在于为AGI划定了一条可量化的“及格线”:
“在认知多样性与熟练度上,媲美或超越受过良好教育的成年人的AI。” 1
这一定义的精妙之处在于,它超越了狭隘的、针对特定任务的基准测试,转而强调人类智能所特有的广度(多功能性)和深度(熟练度)。为了将这一抽象定义操作化,研究团队基于被广泛验证的人类智能模型——卡特尔-霍恩-卡罗尔理论(Cattell-Horn-Carroll theory)——构建了一套严谨的评估方法论。该框架将通用智能分解为10个核心认知领域,并采用成熟的人类心理测量测试套件来评估AI系统:
- 通用知识(General Knowledge)
- 读写能力(Reading and Writing Ability)
- 数学能力(Mathematical Ability)
- 即时推理能力(On-the-Spot Reasoning)
- 工作记忆能力(Working Memory)
- 长期记忆储存能力(Long-Term Memory Storage)
- 长期记忆检索能力(Long-Term Memory Retrieval)
- 视觉处理能力(Visual Processing)
- 听觉处理能力(Auditory Processing)
- 速度(Speed)
这一创新框架,提供了一个结构化、可量化且更具鲁棒性的方法来衡量AI的通用智能水平,将模糊的“感觉”转化为精确的“分数”,为AGI的研发和安全治理树立了更清晰的里程碑。
当前AI的“通用幻觉”与能力鸿沟
依据这一定义,即便当前最先进的大语言模型,也远未触及AGI的门槛。研究结果显示,GPT-4的AGI总得分仅为27%,而其继任者GPT-5的得分也只有57% 1。更令人警醒的是,在许多关键的认知领域,GPT-5的表现甚至跌至个位数,有些接近零:
- 长期记忆储存能力:GPT-5得分为0%
- 长期记忆检索能力:GPT-5得分为4%
- 工作记忆能力:GPT-5得分为4%
- 视觉处理能力:GPT-5得分为4%
- 即时推理能力:GPT-5得分为7%
- 通用知识、读写能力、数学能力:GPT-5的正确率也仅为9%至10%
这些数据有力地揭示了当前AI的**“锯齿状”能力分布和由此产生的“通用智能幻觉”。这意味着,虽然AI在某些狭窄领域(例如某些形式的语言生成或特定任务推理)可能表现出色,但它往往通过利用这些强项来掩盖其他方面的严重缺陷。例如,通过庞大的上下文窗口和检索增强生成(RAG)技术,AI可以模拟出“长期记忆”的能力,但其内在的记忆储存和检索机制却依然严重不足 1。这种权宜之计,虽然在短期内提升了用户体验,却在本质上制造了一种脆弱的假象,可能导致对AGI何时到来的不准确评估和战略误判**。
商业格局与未来投资逻辑
这份报告对于AI产业的商业格局和投资逻辑具有深远影响。过去,市场和资本往往容易被AI在特定任务上的惊艳表现所迷惑,进而对“AGI即将到来”抱有过高期望,甚至驱动了部分过热的投资。现在,清晰的AGI定义和量化评估框架,无疑是一剂清醒剂。
- 市场预期调整:企业和开发者需要更务实地看待现有模型的能力边界,避免盲目宣称“AGI”或“类AGI”产品。这将促使产品设计和功能定位更加聚焦于AI真正擅长的领域,或更透明地展示其局限性。
- 投资风向转变:资本市场将更加审慎地评估那些声称致力于AGI研发的项目。单纯依赖模型规模扩张的投资逻辑可能会受到挑战,那些能够**解决核心认知缺陷(如长期记忆、持续学习、多模态真正融合)**的底层技术和创新架构将获得更多关注。
- 研发重点转移:对于AI巨头和初创公司而言,研发重心将从单纯的“更大模型”转向“更智能的模型”。这意味着需要投入更多资源在基础认知机制、神经符号混合系统、具身智能以及更鲁棒的多模态理解与生成等方面,而非仅仅堆叠参数和数据。
- 细分领域机遇:当前AI的“锯齿状”能力也预示着,在特定认知能力尚不成熟的领域,存在巨大的创新机会。例如,在需要强工作记忆或精确长期记忆的应用场景中,AI的表现尚不理想,这为专注解决这些特定“认知瓶颈”的创业公司提供了广阔空间。
AGI定义下的伦理与社会未来
AGI的明确定义,不仅是技术层面的里程碑,更是对人类文明进程具有深远意义的哲学和伦理讨论的起点。当AGI从一个模糊的概念变为一个可衡量的目标时,我们得以更具体地探讨其对社会、经济、伦理的长远影响:
- 提升AI安全治理的精确性:精确的定义使得AI安全社区能够更具体地评估潜在风险,例如当AI在特定认知能力上达到何种水平时,需要启动何种级别的监管或安全协议。
- 重塑人类与AI的关系:一旦我们知道AGI的标准是什么,我们就能更清楚地理解AI在认知上的局限,从而避免将人类特有的能力(如真正的同理心、创造性洞察)投射到AI身上,建立更健康的共存关系。
- 对未来工作和教育的影响:如果AGI的目标是“媲美或超越受过良好教育的成年人”,那么这预示着未来社会对人类劳动力的需求将发生根本性转变。教育体系需要更早地为人类培养那些AI难以企及的、深层次的批判性思维、创新能力和情感智能。
- 定义的局限性与哲学反思:研究团队也坦诚,当前定义并未涵盖人类智能的所有方面,例如Gardner提出的动觉智能等多元智能类型就被有意排除 1。此外,该框架主要基于英语语境,未来需要考虑文化差异和更灵活的权重方案。这提醒我们,智能的本质是多维且复杂的,任何单一的定义都可能存在局限,需要持续的哲学思辨和跨学科探索。
通往真正AGI的漫长征程
尽管进展迅速,这份权威报告明确指出,“AGI得分在明年内达到100%的可能性不大” 1。通往真正AGI的道路依然充满挑战,需要突破一系列关键瓶颈:
- 长期记忆与持续学习:当前AI在长期记忆方面的得分接近零,且缺乏持续学习能力,每次交互都需重新学习上下文,效率低下。这需要根本性的架构创新,超越现有Transformer架构的限制,探索能够像人脑一样高效存储、检索和整合新知识的机制。
- 即时推理与心智理论:尽管大模型在逻辑推理上有所进步,但在面对全新、无法依赖既有图式解决的问题时,其即时推理能力、心智理论(理解他人意图和信念)以及适应性仍然薄弱。
- 多模态的深度融合:视觉和听觉处理能力的低分,表明当前AI在真正理解和处理多模态信息方面仍有巨大差距,限制了AI Agent与复杂物理或数字环境的交互能力。这不仅仅是识别图像和声音,而是对其背后意义的深度理解和推理。
- 解决“幻觉”问题:由于内在认知缺陷,AI的“幻觉”问题依然普遍存在,这不仅影响信息可靠性,也反映了其对世界模型缺乏真正的内在理解。
这份由业界领袖共同构建的AGI新定义,不仅为AI研究提供了一个精确的靶心,更为全行业敲响了警钟:通往通用智能的道路,并非仅仅是模型规模的无止境扩张,而是需要在认知科学、神经科学和计算机科学的交叉点上,进行更深层次、更基础的原理性突破。它提醒我们,真正的智能需要广度、深度与鲁棒性兼备,而摆脱“通用智能幻觉”,正是我们迈向真正AGI的第一步。