超越“答题范式”:为什么长程智能体正在终结 GRPO 的统治地位?

温故智新AIGC实验室

TL;DR:

随着模型从处理静态的“短程数学题”转向动态的“长程智能体任务”,GRPO 因其对任务执行轨迹的一致性要求及价值判断滞后性,已逐渐成为复杂任务的瓶颈。智谱 GLM-5.2 对 Critic 机制的回归标志着强化学习算法正从“全能默认选项”转向“任务自适应”的精细化治理阶段。

从“平民算法”到“任务边界”

在过去的一年里,GRPO(Group Relative Policy Optimization)几乎成了开源大模型界的一面旗帜。它让模型在无需昂贵的价值网络(Critic)前提下,通过组内对比实现推理能力的涌现,这不仅是 DeepSeek-R1 等里程碑式模型的基石,更是一种开源社区对抗算力垄断的“民主化”技术范式。然而,智谱 GLM-5.2 的技术迭代像一根针,轻轻扎破了这一维持已久的共识——当模型开始处理多轮工具调用、跨时域的任务拆解时,GRPO 的效率开始被其局限性所抵消。

技术原理的哲学回摆:为何 Critic 回归?

GRPO 的核心逻辑在于“同质化比较”,即通过在同一批次内的输出进行排序,以采样分布的相对差异作为训练信号。这种方法在数学题或代码单元测试等“确定性”任务中极其高效,因为它隐含了一个前提:所有轨迹的终点都是可直接量化的“正确”或“错误”。

然而,智能体(Agent)任务的本质发生了范式转移。在长程任务中:

  • 轨迹参差性:子任务的长度差异巨大,组内对比变得像是在比较“跑马拉松”和“百米冲刺”的选手的成绩,缺乏统一的基准。
  • 反馈稀疏性:奖励往往在数十步之后才显现,GRPO 缺失了对每一步状态(State)价值的细粒度预估,导致模型难以理解长链条中的关键路径。

智谱将 Critic 网络请回来的决定,本质上是从“结果导向的相对评价”回归到“过程导向的状态估值”。这种演进暗示了一个技术判断:对于真正的自主智能体,能够独立评价每一阶段贡献的价值函数,比群体内部的博弈更能提供稳定的进化压力。

产业格局:强化学习的“解构”时代

这一转向不仅是一个技术细节的更迭,更是产业界应对复杂任务能力的升级。随着开源模型在 FrontierSWE 等基准测试中逼近闭源模型,模型竞争的焦点已从“参数规模”转向“推理效率与长程鲁棒性”。

特征维度 GRPO 范式 Critic-based PPO 范式
适用任务 数学、代码、格式化数据 长程 Agent、多轮交互、规划任务
计算开销 低(无需价值网络) 高(需训练价值评估器)
反馈机制 组内相对排名 Token/Step 级别的绝对估值
训练稳定性 在短任务中极高 在复杂长任务中具备优势

从商业敏锐度看,这一变革预示着未来模型训练将不再寻求一个“通用的强化学习算法”,而是根据任务形态定制算法栈。这也意味着,拥有成熟 Critic 训练框架和大规模 Rollout 能力的机构,将构建起新的技术护城河。

未来展望:不再有唯一的答案

“GRPO 过时了吗?”答案并非非黑即白。对于轻量化部署的端侧模型,GRPO 依然是极具性价比的选择。但在通往 AGI 的深水区——即长程决策任务中,范式正在发生松动。我们正在见证强化学习从“信仰驱动”回归到“科学驱动”的理性回归。

未来 3-5 年,算法选型将变得高度动态:模型可能会在训练的不同阶段、面对不同领域时,动态切换其强化学习策略。这种“算法组装”能力将成为新一代模型训练平台的核心竞争力。

引用