超越“答题范式”：为什么长程智能体正在终结 GRPO 的统治地位？

TL;DR：

随着模型从处理静态的“短程数学题”转向动态的“长程智能体任务”，GRPO 因其对任务执行轨迹的一致性要求及价值判断滞后性，已逐渐成为复杂任务的瓶颈。智谱 GLM-5.2 对 Critic 机制的回归标志着强化学习算法正从“全能默认选项”转向“任务自适应”的精细化治理阶段。

从“平民算法”到“任务边界”

在过去的一年里，GRPO（Group Relative Policy Optimization）几乎成了开源大模型界的一面旗帜。它让模型在无需昂贵的价值网络（Critic）前提下，通过组内对比实现推理能力的涌现，这不仅是 DeepSeek-R1 等里程碑式模型的基石，更是一种开源社区对抗算力垄断的“民主化”技术范式。然而，智谱 GLM-5.2 的技术迭代像一根针，轻轻扎破了这一维持已久的共识——当模型开始处理多轮工具调用、跨时域的任务拆解时，GRPO 的效率开始被其局限性所抵消。

技术原理的哲学回摆：为何 Critic 回归？

GRPO 的核心逻辑在于“同质化比较”，即通过在同一批次内的输出进行排序，以采样分布的相对差异作为训练信号。这种方法在数学题或代码单元测试等“确定性”任务中极其高效，因为它隐含了一个前提：所有轨迹的终点都是可直接量化的“正确”或“错误”。

然而，智能体（Agent）任务的本质发生了范式转移。在长程任务中：

轨迹参差性：子任务的长度差异巨大，组内对比变得像是在比较“跑马拉松”和“百米冲刺”的选手的成绩，缺乏统一的基准。
反馈稀疏性：奖励往往在数十步之后才显现，GRPO 缺失了对每一步状态（State）价值的细粒度预估，导致模型难以理解长链条中的关键路径。

智谱将 Critic 网络请回来的决定，本质上是从“结果导向的相对评价”回归到“过程导向的状态估值”。这种演进暗示了一个技术判断：对于真正的自主智能体，能够独立评价每一阶段贡献的价值函数，比群体内部的博弈更能提供稳定的进化压力。

产业格局：强化学习的“解构”时代

这一转向不仅是一个技术细节的更迭，更是产业界应对复杂任务能力的升级。随着开源模型在 FrontierSWE 等基准测试中逼近闭源模型，模型竞争的焦点已从“参数规模”转向“推理效率与长程鲁棒性”。

特征维度	GRPO 范式	Critic-based PPO 范式
适用任务	数学、代码、格式化数据	长程 Agent、多轮交互、规划任务
计算开销	低（无需价值网络）	高（需训练价值评估器）
反馈机制	组内相对排名	Token/Step 级别的绝对估值
训练稳定性	在短任务中极高	在复杂长任务中具备优势

从商业敏锐度看，这一变革预示着未来模型训练将不再寻求一个“通用的强化学习算法”，而是根据任务形态定制算法栈。这也意味着，拥有成熟 Critic 训练框架和大规模 Rollout 能力的机构，将构建起新的技术护城河。

未来展望：不再有唯一的答案

“GRPO 过时了吗？”答案并非非黑即白。对于轻量化部署的端侧模型，GRPO 依然是极具性价比的选择。但在通往 AGI 的深水区——即长程决策任务中，范式正在发生松动。我们正在见证强化学习从“信仰驱动”回归到“科学驱动”的理性回归。

未来 3-5 年，算法选型将变得高度动态：模型可能会在训练的不同阶段、面对不同领域时，动态切换其强化学习策略。这种“算法组装”能力将成为新一代模型训练平台的核心竞争力。

从“平民算法”到“任务边界”

技术原理的哲学回摆：为何 Critic 回归？

产业格局：强化学习的“解构”时代

未来展望：不再有唯一的答案

引用