TL;DR:
OpenAI推出的GDPval评估体系,首次将AI能力置于9大行业、44种职业、3万亿美元的真实经济活动中考量,标志着AI评估从学术象牙塔迈向产业实战。该体系不仅揭示领先AI模型已能在近半数任务上比肩人类专家,且效率成本远超人类,更预示着AI正从工具演变为“后人类经济时代”的核心生产要素,深刻重塑工作范式和全球产业生态。
在人工智能领域,“通用人工智能”(AGI)的讨论曾一度占据C位,但如今,随着模型能力边界的不断拓展,行业风向已悄然转向“超级人工智能”(ASI)——一个全面超越人类智能的系统,它将不仅从日常工作中解放我们,更将成为新的智能革命的引领者。OpenAI作为这一变革浪潮的核心推动者,不再满足于传统学术基准测试,而是通过一项名为GDPval的全新评估体系,将AI的真正潜力投射到现实世界的经济价值中,开启了一场关于AI与人类经济协同进化的深度探索。
技术评估范式革新:GDPval的诞生与内涵
长期以来,大型语言模型的评估多聚焦于MMLU(多学科考试)、SWE-Bench(软件工程)等学术或编程挑战,这些固然是衡量模型推理能力的重要标尺,但与实际工作场景的复杂性和多模态需求仍有脱节。OpenAI正是为了弥合这一鸿沟,逐步构建了从实验室到市场的评估路径。GDPval作为其评估体系演进的最新里程碑,其核心创新在于:将AI的表现直接与现实世界的经济产出挂钩。1
GDPval并非简单的文本提示任务,它汇集了来自9大行业、44种职业的1320个高度专业化任务,涵盖了每年高达3万亿美元的经济价值。这些任务源于真实的工作产出,例如法律意见书、工程图纸、客服对话记录,甚至需要模型处理完整的参考材料和工作背景,并以文档、PPT、图表、电子表格乃至多媒体内容等多样形式输出。每一项任务都经过平均5轮的专家评审,确保其高度贴近实际、可由同领域专业人士独立完成,并具备明确的评估标准。OpenAI更开放了其中的220个“金标任务子集”以及公共评分平台,旨在推动更广泛的研究参与和透明度。
这种评估范式的转变,其意义远超技术本身。正如独立研究员Shanaka Anslem Perera所言,GDPval不仅仅是一套评估体系,它更像是“某种经济生命体的诞生”,是“后人类经济时代”的第一套会计体系,甚至可能成为“新物种的记分牌”2。当AI的产出开始计入GDP,它便不再仅仅是工具,而是开始被视为与土地、劳动、资本并列的“第四种生产要素”,这无疑是一场深刻的哲学与经济学的双重思辨。
AI性能跃迁:逼近专业门槛与效率革命
GDPval的早期测试结果令人瞩目。在由平均拥有14年行业经验的顶尖专家团队(来自Meta、微软、摩根士丹利等机构)进行的盲测中,当前领先的大模型在诸多任务上展现出惊人的能力。Claude Opus 4.1在美学表现方面(如文档排版、PPT布局)表现最佳,而GPT-5则在准确性方面领先,尤其擅长定位专业知识点。更令人震惊的是,最先进的大模型(如Claude Opus 4.1)在接近一半的任务中,其产出被评为“与人类一样好”甚至“优于人类”。3
这种进步并非偶然。OpenAI的数据显示,从2024年春发布的GPT-4o到预计2025年夏发布的GPT-5,模型在GDPval任务上的平均表现几乎翻了一番,呈现出明显的线性进步趋势。在效率维度,顶尖模型完成GDPval任务的速度和成本,平均是人类的1%——约快100倍、便宜100倍4。尽管这一数据并未包含人类监督、迭代修改与实际集成等现实工作流程所需资源投入,但它清晰地指明了AI在重复性强、结构清晰的任务中无可匹敌的效率优势。
OpenAI还通过实验性内部特定版GPT-5的增量训练,证实了模型性能的进一步优化潜力。扩大模型规模、引导模型进行更多推理步骤、提供更丰富的任务背景信息,都带来了可衡量的性能增益。这意味着,未来的AI不仅会更强大,还将能够通过精细化的训练和指令工程,更精准地服务于特定领域的专业需求。
后人类经济时代的序章:生产要素与工作重构
GDPval的出现,不仅刷新了我们对AI能力的认知,更深刻地触及了劳动力市场的未来图景。当AI能够在价值3万亿美元的经济活动中比肩甚至超越人类专家,其对社会结构和工作方式的影响将是颠覆性的。
- 生产要素的重构:AI不再是简单的工具,而是成为一种新型的生产要素,能够自主创造经济价值。这意味着经济增长的驱动力将发生根本性转变,传统的生产函数可能需要重新定义。这为全球经济增长提供了新的想象空间,但也对现有的经济理论和政策提出了严峻挑战。
- 劳动力市场的结构性变化:AI在处理重复性、事务型任务上的超高效率和低成本,预示着大量此类工作将被自动化。但OpenAI的愿景是“补充而非替代”——AI将承接日常琐事,从而解放人类,使其能专注于更具创造力、判断力和战略性的复杂工作。这要求劳动力加速转型,学习与AI协作、驾驭AI工具的新技能,以搭上“AI时代的上行电梯”。
- 从AGI到ASI的宏大叙事:GDPval的评估维度和结果,为从AGI迈向ASI提供了具象化的证据和路径。AGI旨在解放人类80%的日常工作,而ASI的目标是全面超越人类智能。GDPval正是通过衡量AI在“经济上具有价值的工作”中的表现,勾勒出这一宏大愿景的早期实现路径,并揭示了“自动化研究人员”等更高级AI形态的可能性。OpenAI首席科学家Jakub Pachocki透露的“推理”和“自动化研究人员”作为未来5年的重点目标,正是对ASI路径的坚定探索。
商业赋能与投资新风向
从商业视角审视GDPval,其潜在的商业价值和市场潜力是巨大的。
- 企业级AI的深度融合:GDPval展示了AI在各行各业的实际应用价值。从法律意见书到工程设计,AI将不再是边缘工具,而是深度融入企业的核心业务流程,成为提升生产力、降低运营成本的关键驱动力。企业将加速部署AI解决方案,尤其是在那些AI表现优异的任务领域。
- 新兴商业模式的涌现:AI的“100倍效率、100倍便宜”潜力,将催生全新的商业模式。例如,“AI优先,人类精修”的工作流将成为常态,专注于AI工具集成、优化和人类协作的AI服务提供商将迎来发展机遇。市场将更青睐那些能将AI能力转化为可量化经济效益的解决方案。
- 投资逻辑的重塑:GDPval为资本市场提供了衡量AI价值的新视角。投资将不再仅仅关注模型参数或跑分,而是更看重AI在实际经济活动中的表现和ROI(投资回报率)。这可能引导AI领域的投资从纯粹的基础模型竞赛,转向更注重应用场景和商业落地的“实战型”AI项目。
伦理考量与社会治理的挑战
伴随技术能力的飞速增长,GDPval也引发了一系列深刻的伦理与社会治理思考。
- 公平性与偏见:GDPval的评估任务源于现实工作,这本身可能继承和放大现实世界中的偏见。如何确保AI在不同职业、不同背景人群中的表现公平,以及如何避免其在决策过程中引入歧视,是亟待解决的伦理挑战。
- 就业转型与社会保障:AI的普及将带来大规模的就业结构调整。政府和企业需要共同努力,建立健全的社会保障体系和再培训机制,帮助受影响的劳动者平稳过渡,避免社会动荡。OpenAI希望推动AI工具的普及平民化,并打造鼓励广泛参与与共享成果的激励机制,这正是应对社会影响的重要举措。
- 透明度与可解释性:尽管GDPval强调透明度,但AI模型的“黑箱”特性依然存在。如何确保AI决策过程的透明度和可解释性,尤其是在高风险的专业领域(如医疗、法律),是建立公众信任的关键。OpenAI推出的“自动评分器”虽然能提高评估效率,但其与人类专家66%的一致性仍提示我们,在关键领域人类的最终判断仍不可或缺。
GDPval作为OpenAI对AI评估范式的革命性贡献,不仅为我们理解AI的真实能力提供了前所未有的窗口,更开启了对“后人类经济时代”的深刻思考。它提醒我们,AI的未来不仅仅是技术参数的竞赛,更是关于人类如何与智能系统共存、共创、共享的文明命题。未来3-5年,随着GDPval等实战评估体系的不断完善,AI将在更大范围、更深层次上重塑我们的工作、商业和社会,而人类文明的进程,也将在这一前所未有的技术浪潮中迎来新的定义。
引用
-
OpenAI Introduces GDPval: A New Evaluation Suite that Measures AI on Real-World Economically Valuable Tasks·MarkTechPost·2025/9/25·检索日期2025/9/26 ↩︎
-
OpenAI 3万亿美元测试,AI首战44个行业人类专家·新智元·KingHZ(2025/9/26)·检索日期2025/9/26 ↩︎
-
OpenAI says GPT-5 stacks up to humans in a wide range of jobs·TechCrunch·2025/9/25·检索日期2025/9/26 ↩︎
-
Measuring the performance of our models on real-world tasks·OpenAI·2025/9/25·检索日期2025/9/26 ↩︎