TL;DR:
大模型后训练算法正经历从PPO到GRPO及后续DAPO、GSPO、GFPO的深刻演进。这一技术脉络从成本效率、稳定性、多属性优化等维度全面提升了模型与人类偏好的对齐能力,不仅重塑着AI产业的商业格局和产品形态,更引发了对智能体本质、反馈机制与通用人工智能路径的哲学思考。
大语言模型(LLM)的飞速发展,已从最初的“预训练”阶段迈入了对齐人类意图、优化实际应用的关键“后训练”时期。如果说预训练让模型拥有了“会说话”的能力,那么后训练则使其学会了“说对话”——符合特定偏好、任务需求与伦理规范。在这场从“能说”到“会说”的进化中,强化学习(Reinforcement Learning, RL)扮演了不可或缺的核心角色。
OpenAI的近端策略优化(Proximal Policy Optimization, PPO)机制,因其在基于人类反馈的强化学习(RLHF)中的卓越表现而广为人知。PPO通过引入价值函数(Critic)、CLIP操作和Reference Model来稳定训练过程,有效提升了模型性能。然而,PPO需要维护一个与策略模型同样庞大的Critic网络,导致其计算和内存开销巨大,难以在大规模LLM训练中高效扩展,成为阻碍其普及的显著瓶颈。1
DeepSeek团队的组相对策略优化(Group Relative Policy Optimization, GRPO)正是为了突破这一瓶颈而诞生。GRPO的核心创新在于巧妙地去除了昂贵的Critic网络。它通过对同一问题生成多条候选输出,并基于这些输出的平均奖励来计算相对优势(Advantage),从而避免了对单独价值网络的依赖,显著降低了训练成本。GRPO保留了PPO中的策略剪裁(Clip)和KL散度正则化,以保障训练的稳定性。DeepSeek-R1等模型在数学推理、代码生成等复杂任务上的成功,充分证明了GRPO的有效性和成本优势。1234然而,GRPO也非终点,它在实际应用中暴露出严重的稳定性问题,尤其在小批量数据训练时极易导致模型崩溃,限制了其在中小规模RL训练中的普适性。1
技术原理与迭代创新:从PPO到GRPO及群智涌现
GRPO的出现,无疑为大模型后训练范式开启了新篇章,并激发了后续一系列旨在克服其局限性的迭代创新:
-
DAPO(Dynamic Advantage Policy Optimization):由字节跳动和清华AIR团队提出,DAPO主要通过工程实践上的精细优化,解决了GRPO在训练中遇到的熵崩溃(entropy collapse)、奖励极端化(reward extremization)和长序列梯度分布失衡等问题。例如,DAPO采用_Clip-Higher机制_扩展了低概率Token的探索空间,_动态采样_过滤掉无效梯度样本,以及_Token级策略梯度损失_保证长序列样本的公平贡献,显著提升了训练效率和模型性能,甚至在部分基准上超越了同等规模的GRPO模型。尽管其数学原理仍基于GRPO,但这些工程智慧极大地增强了GRPO范式的实用性。1
-
GSPO(Group Sequence Policy Optimization):Qwen团队在Qwen3中实现的GSPO算法,标志着后训练领域的一次范式级跃迁。GSPO的突破在于将重要性采样(Importance Sampling)的粒度从传统的Token级提升至序列级。传统的Token级采样在长序列中容易积累高方差,导致训练不稳定,尤其在MoE(专家混合模型)中问题更为严重。GSPO通过计算整个序列的似然度来确定重要性权重,使优化目标与模型输出的奖励信号(通常针对整个回答)保持一致,显著增强了训练的稳定性,并有望成为未来后训练强化学习的新标准。15
-
GFPO(Group Filtered Policy Optimization):微软研究团队提出的GFPO则聚焦于解决GRPO难以联合优化多个响应属性(如同时优化回答的简洁性和准确度)的问题。GFPO通过显式的“数据过滤”机制实现多目标优化:它从更大的候选响应组中,根据预设的属性(例如“简洁”)过滤出符合要求的响应,仅将这些响应用于计算策略梯度。这种选择性采样形如“偏好放大器”,无需复杂的奖励工程,即可高效地引导模型学习期望的多重属性,有效避免了模型为追求单一指标而导致的其他属性退化,如响应冗长。16
这些算法的演进,从成本削减到工程优化,再到粒度革新和多属性平衡,共同勾勒出后训练技术向着更高效、更稳定、更精细化对齐方向的清晰轨迹。
产业生态与商业格局的重塑
后训练算法的每一次突破,都不仅是技术论文上的亮点,更是AI产业格局和商业化进程的深层驱动力。
首先,计算成本与模型普及度是商业决策的关键。GRPO通过“去Critic”策略,大幅降低了大模型训练的资源需求,使得DeepSeek等新兴力量能在与巨头抗衡中占据一席之地。这种成本效率的提升,是推动AI技术民主化和普惠化的重要因素,让更多企业和研究机构能够负担得起高质量模型的训练和部署。GSPO和DAPO通过提升训练稳定性和效率,进一步缩短了模型迭代周期,降低了因训练失败导致的资源浪费,这对于追求快速市场响应和持续创新的AI企业至关重要。
其次,模型对齐能力已成为商业竞争的核心壁垒。在基础模型能力日益趋同的今天,谁能让模型更好地理解用户意图、生成更符合场景需求、甚至更具“人格化”的输出,谁就能赢得用户和市场。GFPO的多属性优化能力,直接解决了商业场景中“鱼与熊掌兼得”的痛点——例如,客服AI既要准确无误,又要简洁高效。GSPO在长文本生成中的稳定性,则提升了内容创作、文档摘要等应用的用户体验。这些算法使企业能够根据特定商业目标,打造出更具差异化、更符合垂直市场需求的AI产品,从而形成独特的竞争优势。
再者,这场由DeepSeek、Qwen、微软、字节跳动等领衔的后训练算法创新竞赛,预示着AI技术正从“通用大模型竞赛”转向“应用效果与效率竞赛”。资本和市场关注的焦点,正从模型的参数规模转向其在实际应用中的表现、成本效益以及与业务场景的契合度。这不仅会加速AI在各行各业的落地速度,也会催生更多围绕“模型对齐”和“用户体验优化”的创业机会和商业模式创新。
哲学思辨:对“智能体”本真追求的拷问
从技术层面深入,后训练算法的演进也引发了对AI“智能体”本质及其与人类关系更深层次的哲学拷问:我们究竟希望AI成为一个怎样的“智能体”?
“对齐”作为后训练的核心目标,其本质是对AI施加人类价值观和意图的塑形。然而,当GRPO面临“奖励歧义性”——模型难以区分单一标量奖励背后是“答案正确”还是“推理清晰”时1,我们便需思考:人类能否通过简化为数值的反馈,全面捕捉我们对智能体复杂的行为预期?AI在优化这些数值时,是否可能以一种我们未曾设想的方式“作弊”或偏离真实意图?GFPO通过多属性优化提供了一个更精细的引导方式,但其底层逻辑仍是人类预设偏好的映射。这让人不禁追问:我们是在培养AI的“真知灼见”,还是仅仅在训练一个更高级的“模仿者”?
进一步而言,当前RLHF依赖于人类反馈,这本身便带有人类固有的主观性、偏差和有限性。在多轮推理等复杂任务中,模型因反馈机制的脆弱性而产生的“指数级分支”问题1,不仅是技术难题,更反映出当前人机交互反馈循环的局限。未来的智能体若要实现真正的自主性和通用性,是否需要发展超越人类反馈的自我评估、自我学习和自我修正机制?例如,如何让AI能够从其自身与环境的交互中,生成语义丰富的、非标量化的反馈信号?这不仅关乎技术,更触及了关于“学习”、“意识”和“智能”本质的哲学命域。
这场后训练算法的竞赛,不仅仅是优化参数和提升指标,它更像是一场人类与AI共同探索智能边界的漫长对话。每一次算法的迭代,都是我们对AI如何理解世界、如何与世界交互,以及最终如何融入人类文明进程的一次深层思考和实践。它在塑造AI行为的同时,也在无形中定义着我们对未来“智能伙伴”的期待与展望。
未来发展路径与潜在挑战
后训练算法的演进趋势预示着AI模型将走向更高效、更稳定、更可控且多功能的方向。展望未来3-5年,其发展将呈现以下几个关键路径:
- 多范式融合与超越强化学习:未来的后训练方法将不再局限于单一范式,而是融合GSPO的序列级稳定性、GFPO的多属性优化能力以及DAPO的工程实践智慧。更进一步,研究将探索超越传统奖励函数的对齐机制,例如基于对比学习、无监督模仿学习或AI自我评估的弱监督/无监督对齐方法,以降低对昂贵且有偏见的人类反馈的依赖。这将催生出能够自主发现并修正行为的新一代学习范式。
- 更深层次的认知对齐与多模态交互:目前算法仍主要关注文本生成,但未来的重点将是实现多模态的深度认知对齐。这意味着算法需要处理和融合来自文本、图像、音频、视频等多种模态的反馈,并能在复杂的多轮对话或具身智能场景中,保持长程连贯性和逻辑推理能力。例如,AI Agent不仅需要理解语言指令,还要根据视觉反馈调整其物理行为,这将对后训练的反馈机制和模型架构提出更高要求。
- 伦理治理与可解释性的核心地位:随着AI对人类社会影响力的加深,后训练过程中的伦理考量和可解释性将成为重中之重。如何确保奖励模型不固化或放大偏见?如何量化和审查模型“对齐”的程度?如何让模型在生成决策时提供可解释的推理路径?这将推动研究者开发新的工具和框架,来评估和审计后训练的效果,确保AI的公平性、透明度和安全性。
- 算法与硬件的协同优化:尽管算法不断优化以提高效率,但日益增长的模型规模仍将持续挑战算力极限。未来的发展将更强调算法设计与底层硬件架构的协同优化。例如,针对特定AI芯片特性设计的后训练算法、高效的分布式训练框架、以及在后训练阶段应用的更激进的模型压缩(剪枝、量化)技术,都将是突破计算瓶颈的关键。
- AI Agent与具身智能的基石:能够通过后训练习得更精细、更符合人类意图行为模式的AI模型,将成为构建**具有自主规划和执行能力AI Agent以及具身智能(Embodied AI)**的坚实基石。一个能够精准理解复杂目标、高效与物理世界交互的机器人或智能系统,其核心正是由先进的后训练算法所塑造的行为逻辑。这将推动AI从虚拟世界走向真实世界,在自动驾驶、智能制造、服务机器人等领域引发变革。
后训练的演进不仅仅是技术层面的精进,更是人类与AI之间不断深化对话、塑造智能体行为边界的过程。它指引着AI从“模仿”走向“理解”,从“预测”走向“决策”,最终成为更值得信赖、更具价值的通用智能伙伴。
引用
-
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生·36氪·关注大模型的(2025/9/1)·检索日期2025/9/1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
【DeepSeek】大模型强化学习训练GRPO算法,你学会了吗? 原创·CSDN·qq_38961840(2025/8/7)·检索日期2025/9/1 ↩︎
-
强化学习与大模型后训练:DeepSeek R1 如何获得推理能力?·腾讯新闻·未知(2025/2/6)·检索日期2025/9/1 ↩︎
-
DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法·MetaX·未知(2025/3/14)·检索日期2025/9/1 ↩︎
-
Group Sequence Policy Optimization·Hugging Face Papers·Qwen Team(2025/7/18)·检索日期2025/9/1 ↩︎
-
Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning·arXiv·Microsoft Research(2025/8/9)·检索日期2025/9/1 ↩︎