打破“收益递减”幻象:大模型长程执行能力重塑AI商业与社会未来

温故智新AIGC实验室

TL;DR:

一项新研究挑战了AI Scaling Law收益递减的普遍认知,揭示尽管单步准确率提升放缓,但其复合效应能带来模型任务完成长度的指数级增长。这一发现,特别是结合“思考模型”对“自我条件化”缺陷的克服,重新定义了大模型的经济价值,预示着AI Agent在复杂长程任务中实现更深层次的自主化和商业落地,开启了通往真正智能体的新篇章。

长期以来,业界对AI大模型(LLM)的Scaling Law(规模法则)是否已达“收益递减”的临界点争论不休。随着模型规模的不断扩大,训练成本急剧上升,而短任务基准测试中单步准确率的提升似乎逐渐放缓,这让许多人质疑继续投入巨额计算资源是否仍具经济效益。然而,剑桥大学等机构发表的一项突破性研究 1 犹如一剂强心针,以严谨的数据和分析揭示了一个关键的“幻象”:表面上的收益递减,掩盖了模型在“长程任务执行”能力上实现指数级跃升的巨大潜力。

技术原理与创新点解析

这项研究的核心在于重新定义了衡量LLM价值的维度,将关注点从单一任务或短序列的准确率,转向了模型能够可靠完成的“任务长度”。传统上,LLM在长程任务中的表现被认为是其推理能力的根本缺陷,例如自动驾驶的复杂路径规划或生成连贯长视频的挑战。该论文通过巧妙地解耦了AI智能体任务中的“规划(planning)”与“执行(execution)”环节,并将重点聚焦于长期被忽视的“执行”能力

研究团队在受控环境中,通过显式提供必要的知识和规划,隔离并测量了LLM的执行能力。他们发现:

  • 收益递减的幻象与复合增长:尽管单步任务的准确率提升幅度在减小,但这些微小的准确率进步能够产生强大的“复合效应”,使得模型能够成功完成的任务长度呈现指数级增长。数学推导表明,当单步准确率超过70%后,微小提升将带来远超指数级的任务长度改善。这意味着,如果一个AI的经济价值取决于它能持续执行任务的时长,那么持续的计算投入仍是极具价值的。
  • Scaling的深层价值:以往认为,扩大模型规模主要提升了模型的知识存储和规划能力。然而,实验结果显示,即使在已提供所有知识和规划的条件下,模型规模的扩大依然能显著提高模型成功执行的轮次数量。这表明,Scaling的价值远超记忆和推理,它还强化了模型在复杂序列中保持准确无误的“韧性”
  • “自我条件化”(Self-Conditioning)的挑战:研究揭示了一个关键的薄弱点:LLM在长程任务中容易出现“自我条件化”效应 2。这意味着,模型会将其自身先前轮次中产生的错误作为新的上下文进行学习,导致后续步骤的错误率进一步上升,形成恶性循环。令人担忧的是,这种现象与长上下文问题不同,单纯扩大模型规模并不能有效缓解自我条件化带来的性能下降。 这点与人类通过练习进步的模式截然相反,暴露了当前大模型在错误处理上的深层局限。
  • 思考模型(Thinking Models)的破局:令人振奋的是,研究发现结合了思维链(Chain of Thought, CoT)和强化学习训练的“思考模型”能够有效修正自我条件化限制。例如,DeepSeek R1(一个强化学习训练的思考版本)显著优于其指令微调的对应模型DeepSeek-V3。更引人注目的是,GPT-5 的思考版本(代号 Horizon)能够执行超过1000步任务,远超其他竞争对手(如Claude-4-Sonnet的432步) 1。这凸显了在行动前进行推理的重要性,并为未来AI Agent的开发指明了方向。

产业生态与商业价值评估

这项研究的洞察力将对AI产业的商业版图产生深远影响:

  • AI Agent经济的引爆点:如果AI的经济价值真正来源于其完成“长程任务”的能力,那么这项发现将为AI Agent和自主系统的商业化提供强大的理论和实践支撑。企业不再满足于AI回答零散问题,而是渴望它能处理整个项目。从航班预订的复杂评估到软件工程的端到端开发,能够可靠执行数百甚至上千步的AI Agent,将彻底改变企业的工作流,创造数万亿美金的潜在市场
  • 重塑投资逻辑与研发方向:过去的投资可能过于关注短任务基准的边际收益。现在,资本将更倾向于投入能够提升模型长程执行能力的技术方向,包括更大规模的模型训练、更先进的思维链机制、更鲁棒的RLHF(人类反馈强化学习)以及专门针对执行层面的优化。对“思考模型”的研发投入将成为新的竞争焦点。
  • 企业级AI的深度赋能:在金融、医疗、法律、软件开发等对流程可靠性和长序列操作要求极高的行业,具备长程执行能力的AI将不再是辅助工具,而是能独立完成复杂任务的数字劳动力。例如,LLM可以辅助完成从需求分析、代码编写、测试到部署的整个软件开发生命周期 3,大幅提升效率和自动化水平。
  • 新的基准测试需求:这项研究也促使行业重新思考AI的评估标准。传统基准测试往往无法衡量模型在长程任务中的可靠性。未来,针对模型执行深度、自我修正能力和鲁棒性的新型基准测试将变得至关重要,以更真实地反映模型的经济价值和实用潜力。

社会影响与未来工作模式

AI长程执行能力的飞跃,将深刻触及社会结构和人类的未来工作方式:

  • 加速工作自动化与再定义:当AI能处理复杂而漫长的任务链时,许多过去需要人类协作、监督和纠错的中间环节将被AI承担。这不仅意味着大量重复性工作的自动化,更可能解放人类的创造力和决策力,让他们聚焦于更宏观、更具战略性的任务。 现有的工作岗位将经历深刻的结构性调整,技能升级和终身学习的重要性将前所未有地凸显。
  • 提升人机协作的深度与广度:AI不再仅仅是提供信息或执行简单指令的工具,而是成为能够与人类共同完成复杂项目的“数字伙伴”。人类与AI之间的协作模式将从“指导-执行”转变为“共同规划-自主执行-人类监督与干预”,对人类的AI素养、协作技能提出更高要求。
  • 对信任和控制的挑战:能够自主执行数百甚至上千步任务的AI Agent,其行为路径和潜在的错误累积将变得更加复杂和难以预测。尤其是在“自我条件化”问题尚未被完全克服的情况下,如果AI在执行过程中因自身错误而偏离目标,可能导致难以预料的后果。因此,AI伦理与治理、可解释性、可控性和透明度的需求将变得更加迫切。如何建立有效的监控、纠错和安全机制,确保这些强大的AI Agent始终服务于人类福祉,是摆在全社会面前的哲学与工程挑战。

未来发展路径预测

展望未来3-5年,这项研究将驱动以下几个关键趋势:

  1. AI Agent范式的成熟:长程执行能力的突破是构建真正自主智能体的基石。我们将看到更多基于"思考模型"和强化学习的AI Agent涌现,它们将能处理更广泛、更复杂的现实世界任务,从数字世界延伸至物理世界,加速机器人与具身智能的发展。
  2. “韧性AI”成为新焦点:除了追求更高的准确率,AI的“韧性”(Resilience),即在面对不确定性、错误甚至自身错误时,仍能保持任务正确执行的能力,将成为研发的关键目标。对自我条件化的深入理解和系统性解决方案将是核心。
  3. 计算资源投入的新高潮:对长程执行能力的追求将重新点燃对大规模计算资源的投资热情。不仅是模型规模,更包括针对“顺序测试时计算”(sequential test time compute)的优化,以支持思考模型的推理深度和迭代能力。
  4. AI与人类认知的深度融合:对“思考”机制的探索将推动我们更深入地理解智能的本质。AI通过模拟或超越人类思维的某些方面,例如在行动前进行推理的能力,正在模糊传统上人与机器智能的界限。这促使我们重新审视智能、意识和自主性的哲学定义。

这项研究犹如一盏明灯,照亮了AI大模型发展的新航向。它不仅提供了应对当前“收益递减”论的强有力反驳,更以严谨的数据和前瞻的洞察,为AI Agent和自主系统的未来描绘了宏伟蓝图。我们正站在一个新时代的入口,AI将不再仅仅是提供答案的工具,而是能够自主行动、完成复杂任务的伙伴,深刻地改变我们的世界。然而,伴随能力增长而来的,是对技术伦理、社会影响和未来治理的深层思考,这需要技术界、政策制定者和社会各界的共同努力。

引用


  1. 谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长 · 36氪 · 张倩(2025/9/16)· 检索日期2025/9/16 ↩︎ ↩︎

  2. 谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长 · 新浪香港科技 · (2025/9/16)· 检索日期2025/9/16 ↩︎

  3. LLM 大模型训练之路 - 鹤啸九天 · wqw547243068.github.io · 鹤啸九天(未知)· 检索日期2025/9/16 ↩︎