TL;DR:
Meta的“中训练”范式通过让AI智能体从自身探索中学习“早期经验”,有效弥合了模仿学习与强化学习之间的反馈鸿沟,显著提升了Agent的泛化能力与参数效率,预示着通用Agent训练范式的深层变革。
2025年,人工智能领域的竞争焦点正经历一场根本性转变。曾一度主导行业的基准跑分竞赛,正逐渐让位于一个更具挑战性也更具前瞻性的目标:赋能AI Agent自主完成真实世界中复杂、长程的任务。从xAI到Anthropic,行业巨头们的最新发布无不强调着同一个能力——通用Agent。然而,这一宏伟愿景的落地,长期以来受困于智能体训练中核心的“反馈机制困境”——现有的学习路径要么效率低下,要么成本高昂,导致Agent的实际应用场景寥寥无几。
技术原理与创新点解析
要让预训练模型从“知识容器”蜕变为能与世界深度互动的强大Agent,必须通过持续的互动获得反馈来学习。目前主流的Agent后训练方法主要有两种:监督微调(SFT)和强化学习(RL),但它们在反馈形式上都面临着各自难以克服的“昂贵”代价。
监督微调(SFT) 路径依赖于一种“昂贵的静态反馈”。这种方法让Agent模仿人类专家的操作演示数据。高质量的专家数据本身就难以大规模生产,可扩展性低。更深层的局限在于,这种静态反馈只告诉模型“应该怎么做”,却从未教导它“不这么做会有什么后果”。模型无法学到自身行为与环境结果之间的因果联系,导致其泛化能力极差。一旦在真实操作中遇到训练数据之外的情况,Agent便会变得极其脆弱,无法适应环境的多样性。1
强化学习(RL) 路径则依赖于一种“复杂的动态反馈”。它让Agent通过环境返回的奖励(reward)信号进行试错学习,理论上可以无限试错。然而,在许多真实世界的复杂任务(如网页浏览、多步骤工具使用)中,奖励信号要么缺失,要么非常稀疏和延迟,导致训练极其困难和低效。例如,在多步骤的工具使用或长远规划任务中,奖励往往在漫长的操作序列结束后才会出现,甚至非常模糊,使得“功劳分配”变得异常困难,训练过程既不稳定又极其低效。此外,当前绝大多数真实世界的语言Agent环境,都缺乏支持大规模RL训练的成熟基础设施,如可靠模拟器、标准化的重置机制和可扩展的评估平台。1 结果就是,智能体训练陷入“简单的不够强,强大的用不了”的尴尬困局。
为弥合这一反馈鸿沟,Meta等机构于2025年10月发表的论文《Agent Learning via Early Experience》提出了名为**“早期经验”(Early Experience)的“中训练”范式**。2 这一创新思想诞生于一个巧妙洞察:Agent自己探索产生的状态变化,本身就是宝贵的学习信号。既然专家数据不够用,奖励数据太稀缺,为什么不让Agent从自己的“试错”中学习?即便没有外部奖励,Agent每次行动后环境发生的状态变化,比如报错信息、页面跳转、表单状态变化等,就是一种极具价值、可扩展且免费的监督信号。
研究者们将这一理念落地为两种具体、可操作的训练策略:
- 隐式世界建模(Implicit World Modeling, IWM):其核心逻辑是让Agent学会预测“如果我这么做,世界会变成什么样?”。具体而言,Agent在设定的专家行为轨迹的每个状态下,生成多种备选动作。随后,在真实环境中执行这些动作,并记录每个动作导致的真实环境响应,构建大量(状态、动作、结果状态)数据对。最终,训练Agent根据“当前状态+动作”来预测“未来状态”。简单来说,就是通过大量的自主“作死”和观察后果,让Agent在没有外部奖励的情况下,自己“悟出”世界的运行规律,从而建立起对世界的因果理解。1
- 自我反思(Self-Reflection, SR):其核心逻辑是让Agent学会解释“为什么专家的做法比我的其他想法更好”。Agent同时观察专家动作和自身备选动作的结果对比。然后,使用强大的LLM生成详细解释,让Agent反思,分析为什么专家选择在权衡各种因素(任务进展、约束条件、效率等)后是最优的。通过训练Agent学会先生成这种反思推理,再输出正确动作,模型得以通过标准的序列生成loss学习“先思考再决策”的模式,进而内化细粒度的经验教训。1
这两种方法殊途同归,都是让Agent从自身行为后果中学习,无需外部奖励即可获得丰富且高质量的监督信号。经过在覆盖具身导航、网页浏览、多轮工具使用、长远规划等8个多样化环境中的评测,结果显示“早期经验”范式取得了显著成效:
- 直接性能提升:平均任务成功率比传统模仿学习提升9.6%。
- 泛化能力强化:在未见过的任务上表现提升9.4%。
- 强化学习潜力释放:作为强化学习的初始化策略时,最终性能提升最多达6.4%,有力证明了“中训练”确实起到了桥梁作用,为后续更复杂的RL训练打下了坚实基础。1
这些提升在不同复杂度的环境中都保持稳定,无论是动作空间相对简单的具身导航,还是复杂的网页交互任务,均能带来一致的性能改进。这项工作与谷歌DeepMind在ICML上提出的一个关键理论发现——《通用Agent包含世界模型》——形成呼应,该研究证明了所有能够成功处理复杂、多步骤任务的Agent,内部都必须拥有某种“世界模型”,即对环境运行规律的准确理解。1 “早期经验”正是在补齐这堂关键的“世界模型”课,通过让Agent大量观察“如果我这样做会怎样”,促使其建立对世界的因果理解。
这项工作也对“中训练”的价值给出了有效的证明。它预示着传统“预训练+微调”的二段式AI训练范式,对于需要与世界深度交互的Agent而言,可能需要演变为**“预训练+中训练+后训练”的三段式**:即预训练阶段学习语言和知识,中训练阶段理解世界运行规律并建立因果模型,后训练阶段在具体环境中优化策略和目标。
产业生态影响评估
Meta“中训练”范式的出现,不仅是算法层面的精妙创新,更对整个AI Agent产业生态,乃至更广阔的AI技术发展路径,带来了深远影响。
首先,它正在重塑AI竞争的底层逻辑。当前,AI竞争的焦点正在从单纯的模型参数量比拼和基准跑分,转向Agent的任务完成能力和实际落地表现。Meta的这一突破,直接瞄准了Agent落地应用的核心瓶颈——反馈机制的低效和昂贵。通过提供一种可扩展且低成本的反馈形式,它极大地降低了构建和部署强大Agent的门槛。这将加速Agent从编程等少数优势领域向更广阔的通用场景(如网页交互、多步骤工具使用、智能助理、复杂决策系统)渗透,开启一个前所未有的Agent商业化浪潮。对于寻求在实际业务中应用AI的企业而言,这意味着能以更低的成本和更高的效率,开发出更健壮、适应性更强的智能自动化解决方案。
其次,这一范式揭示了参数效率的全新Scaling Law可能性。传统AI模型的发展往往依赖于简单粗暴地增加参数量,但从GPT-5、Grok等一系列模型的表现来看,这种做法的边际收益递减趋势日益明显。1 “早期经验”的成功,通过大量的自我递归和反思训练,让模型反复练习状态预测和多角度思考。这个过程迫使原本只用于文本生成的参数开始承担环境建模和复杂决策的职责,从而极限化每个参数的潜力。在实验中,一个700M参数的小模型竟然能够在某些任务上超越比自己大十几倍参数量的大模型1。这强烈暗示了一种新的Scaling Law正在浮现,即我们对Test Time Compute的利用还远未达到极致。这种通过自我递归释放参数效率的做法,可能预示着一个属于Test Time Compute的新Scaling Law,有望将当下臃肿的模型转化为更高效、更被激活的模型,对于缓解算力压力、优化资源配置以及提升AI的“性价比”具有战略性意义。这无疑将深刻影响AI领域的投资逻辑,推动资本从单纯追求“大模型”转向寻求“高效智能”和“实际价值”的平衡。
再者,Meta的战略布局也显示出其在通用Agent赛道上的长期雄心。通过提出这种介于模仿学习和强化学习之间的“中间地带”训练方法,Meta不仅提供了关键的技术解决方案,更是在为未来通用人工智能的训练范式构建基础设施。这种三段式训练——“预训练+中训练+后训练”——被认为是通往真正通用Agent的必经之路,意味着AI的训练将不再急于求成,而是赋予智能体充分的时间和机会,先理解世界,再改变世界,从被动的模仿者成长为主动的探索者,最终蜕变为智能的决策者。这将重塑AI开发流程,催生新的工具链和服务生态,进一步巩固Meta在AI前沿领域的领导地位。
未来发展路径预测
展望未来3-5年,Meta的“中训练”范式将作为构建更通用、更鲁棒AI Agent的基石,引领人工智能发展迈入一个更加注重“智能深度”而非仅仅“智能广度”的新阶段。
首先,“世界模型”将成为Agent能力的核心基准和研究热点。随着“中训练”等方法的普及,AI Agent不再满足于简单的模式识别或指令执行,而是会更加注重对环境深层因果关系和动态的理解。未来的Agent将拥有更强的泛化能力和适应性,能够在面对未知情境时,通过其内化的世界模型进行推演和规划,而不仅仅是依赖预设的规则或训练数据。这将驱动学术界和产业界投入更多资源,探索如何更高效、更精准、更具可解释性地构建和优化AI的“世界模型”,甚至可能催生出一系列专门针对世界模型评估和训练的新工具和平台。
其次,定制化与“轻量化”Agent将迎来爆发期。Test Time Compute的Scaling Law将鼓励开发者利用更小的模型参数,通过更深度的自我训练和推理过程,实现媲美甚至超越大型模型的性能。这意味着企业和个人将能够以更低的算力成本和更快的部署速度,开发出高度定制化的智能Agent,以适应各种垂直领域的复杂任务,例如在金融风控、医疗诊断辅助、智能制造优化等专业场景。这将极大地扩展AI Agent的应用边界,催生一个多样化且充满活力的Agent应用市场,打破少数巨头对大模型算力的垄断,赋予更多创新者参与AI生态建设的机会。
再者,人机协作模式将发生深刻变革,并对未来工作形态产生颠覆性影响。当Agent能够自主探索、反思并理解世界运行时,它们将从传统的“工具”升级为真正的“数字伙伴”或“智能副驾驶”。在未来的工作流程中,Agent不仅能执行任务,更能主动发现问题、提出解决方案,甚至进行自我纠错和学习。人类将更多地扮演“指导者”、“问题定义者”和“复杂决策者”的角色,与智能Agent共同完成过去难以想象的复杂项目,这预示着生产力与创新力的指数级提升。然而,这也将对劳动力市场带来深层冲击,要求教育体系加速转型,培养具备与高级Agent协作能力的新型人才。
最后,一个能够自主学习和理解世界的Agent,其行为的边界、决策的透明度以及潜在的误用风险,无疑将成为社会广泛关注的焦点,进一步推高AI伦理与治理的紧迫性。如何在赋予Agent强大能力的同时,确保其在“试错”过程中遵循人类价值观,避免意外行为的发生?如何建立有效的监督和干预机制以防止负面后果?这些深层问题将需要跨学科的深度思考、全球性的合作治理框架以及更强大的AI安全技术来共同应对。未来,AI Agent的每一次进步,都将伴随着对其社会影响和道德责任的再审视。
总而言之,“中训练”范式是AI Agent发展历程中的一块重要里程碑。它不仅为当前Agent的落地困境提供了务实的解决方案,更在哲学层面上指明了通往真正通用智能的路径:让AI从被动的知识容器,蜕变为主动的探索者和思考者,最终掌握理解和改变世界的能力。这不仅是一场技术变革,更是一次对未来人类文明进程的深刻启示,预示着一个由更智能、更自主的Agent驱动的全新时代正在加速到来。