LLMPost-Training全景指南：从RLHF到GRPO再到AgenticRL

张

张建站

2026/4/13 15:13:35

10分钟阅读

LLMPost-Training全景指南：从RLHF到GRPO再到AgenticRL

来源机器学习算法与自然语言处理知乎本文约5200字建议阅读11分钟本文介绍了 LLM 后训练的核心方法、演进路径及 2025-2026 年新趋势。1. 引言什么是 Post-Training大语言模型LLM的训练通常分为两个大阶段预训练Pre-training 和后训练Post-training。预训练阶段通过海量无标注文本让模型学会语言的基本规律和世界知识产出的是一个什么都知道一点、但什么都不太好用的基座模型。而 Post-training 则是将这个毛坯房精装修成真正好用的产品的过程——让模型学会遵循指令、与人类偏好对齐、具备推理能力甚至能使用工具完成复杂任务。从 2022 年 ChatGPT 横空出世至今Post-training 技术经历了爆发式的演进。如果用一句话概括当前的格局SFT 教模型说什么偏好优化教模型怎么选而 RL 教模型怎么想。本文将以直观的方式系统梳理这一领域的核心方法和最新进展特别适合之前没怎么接触过 RL 的读者。2. 直觉建立一个餐厅的类比在深入技术细节之前让我们用一个餐厅培训厨师的类比来建立直觉想象你开了一家餐厅招了一个天赋异禀的厨师Pre-trained Model。这个厨师读过所有的菜谱书预训练数据知道各种食材和烹饪技法但从没真正为客人做过菜。SFT监督微调就像是让资深厨师手把手教他做几道招牌菜——这道菜应该这样做。学完之后他能按照标准流程做出不错的菜品。RLHF基于人类反馈的强化学习则更进一步让食客品尝他做的多道菜并排序——这道比那道好吃。然后根据食客的偏好反复调整口味。这里的食客评分系统就是 Reward Model而厨师根据评分不断改进的过程就是 PPO/GRPO 等 RL 算法在做的事。DPO直接偏好优化则是一种更简洁的方式不需要单独训练一个评分系统而是直接从A 菜比 B 菜好的对比数据中学习省去了中间环节。RLVR基于可验证奖励的 RL 适用于有标准答案的场景比如做数学题——答案对就是对、错就是错不需要人来打分。这就像是让厨师参加烹饪比赛评判标准完全客观比如蛋糕是否在 30 分钟内烤熟且内部温度达标。Agentic RL 则是最新的方向不仅要求厨师会做菜还要会查菜谱、去市场采购、协调后厨——像一个完整的主厨智能体一样工作。3. 技术深潜核心方法详解3.1 SFT监督微调——一切的起点监督微调Supervised Fine-Tuning是 Post-training 最基础也最直观的方法。其核心思路是收集高质量的 (prompt, response) 数据对然后用标准的交叉熵损失函数对预训练模型进行微调。SFT 的数据通常包括指令跟随数据如 Alpaca、ShareGPT 格式的对话、特定领域的专业数据、以及多轮对话数据。近年来合成数据Synthetic Data 在 SFT 中扮演着越来越重要的角色——用更强的模型如 GPT-4生成训练数据来教较小的模型这种做法被称为知识蒸馏Knowledge Distillation 。SFT 的常见实现方式包括全参数微调Full Fine-tuning和参数高效微调PEFT后者以 LoRA 和 QLoRA 最为流行。LoRA 通过在模型权重矩阵旁边添加低秩分解矩阵来实现高效训练通常只需要训练原始参数量的 0.1%~1% 。关键认知 SFT 教会模型输出的格式和风格应该是什么样的但它本质上是在模仿无法让模型学会超越训练数据的能力。这就是为什么我们需要 RL。3.2 RLHF基于人类反馈的强化学习——对齐的经典范式RLHF 是 InstructGPT 和 ChatGPT 背后的核心技术由 OpenAI 在 2022 年的论文中系统阐述。其完整流程分为三步Step 1监督微调SFT。首先收集人类撰写的高质量回答对预训练模型进行监督微调得到一个初始的 SFT 模型。这一步是后续 RL 训练的前提条件。Step 2训练 Reward Model。对于每个 prompt让 SFT 模型生成多个通常 4 个不同的回答然后由人类标注者对这些回答进行排序。利用这些排序数据训练一个 Reward Model奖励模型使其能够对任意回答给出一个标量分数反映该回答的质量。Step 3PPO 优化。使用训练好的 Reward Model 作为奖励信号通过 PPO 算法对 SFT 模型进行进一步优化。在这个过程中模型不断生成回答、获得奖励、更新策略逐步学会生成更符合人类偏好的内容。RLHF 的一个重要变体是 RLAIFReinforcement Learning from AI Feedback其核心区别在于用 AI 模型而非人类来提供偏好反馈从而大幅降低标注成本。Anthropic 的 Constitutional AI 就是这一思路的典型代表。3.3 PPORL 的主力算法PPOProximal Policy Optimization是 RLHF 中最经典的 RL 优化算法。要理解 PPO 在 LLM 训练中的角色需要先明确几个概念在 RL 的语境下LLM 就是策略Policy它根据输入的 prompt状态生成 token 序列动作。PPO 的核心目标是在每次更新中让策略朝着获得更高奖励的方向改进但又不能改变太大通过 clipping 机制约束以保证训练的稳定性。PPO 在 LLM 训练中需要同时维护四个模型模型角色是否更新说明Policy Model被训练的 LLM是生成回答是我们最终要得到的模型Reference Model初始策略的冻结副本否用于计算 KL 散度防止策略偏离太远Reward Model评估回答质量否对生成的回答打分Value Model (Critic)估计状态价值是用于计算 Advantage即这个回答比平均水平好多少PPO 的损失函数核心是 clipped surrogate objective其中是新旧策略的概率比是 advantage优势函数是 clip 范围通常 0.1~0.2。这个 clip 机制确保每次更新的幅度不会太大是 PPO 稳定性的关键。PPO 的主要问题在于需要同时加载四个模型显存开销巨大训练过程中需要在生成rollout和更新之间反复切换工程复杂度高超参数敏感调参困难。3.4 GRPO去掉 Critic 的轻量级 RLGRPOGroup Relative Policy Optimization由 DeepSeek 团队在 2024 年提出是当前开源推理模型训练中最流行的 RL 算法。GRPO 的核心创新在于用组内相对排名来替代 Value Model 估计 advantage从而完全去掉了 Critic 模型。GRPO 的工作流程如下对于每个 prompt采样个通常 8~64 个回答分别获得奖励分数₁₂。然后对这组奖励进行归一化这样组内表现好于平均水平的回答获得正的 advantage被鼓励差于平均水平的获得负的 advantage被抑制。这种方式不需要单独训练一个 Value Model大幅降低了资源需求。对比维度PPOGRPO所需模型数4 个2~3 个无 CriticAdvantage 估计Value Model (Critic)组内归一化显存需求高较低采样方式每个 prompt 1 个回答每个 prompt G 个回答训练稳定性需要精细调参相对简单典型应用ChatGPT, InstructGPTDeepSeek-R1, Qwen33.5 RLVR可验证奖励——推理模型的关键RLVRReinforcement Learning with Verifiable Rewards是 2025 年最重要的技术趋势之一。与 RLHF 使用学习得到的 Reward Model 不同RLVR 使用基于规则的确定性验证器来提供奖励信号。RLVR 的适用场景是那些答案可以被客观验证的领域领域验证方式示例数学字符串匹配 / Math-Verify答案是 42 vs 标准答案代码沙箱执行测试用例运行代码检查输出是否通过所有测试逻辑推理规则验证检查推理步骤的逻辑一致性科学问题LLM Judge用另一个 LLM 判断答案等价性RLVR 的奖励设计通常包含两部分准确性奖励答案是否正确和格式奖励输出是否符合要求的格式如 think.../thinkanswer.../answer。DeepSeek-R1 就是使用 GRPO RLVR 训练的典型代表。关键认知 RLVR 之所以重要是因为它解决了 RLHF 中 Reward Model 的两大痛点——reward hacking模型学会欺骗 Reward Model 而非真正变好和标注成本高。在可验证领域规则就是最好的奖励函数。3.6 DPO 及其变体不需要 RL 的偏好优化DPODirect Preference Optimization在 2023 年横空出世提供了一种完全不同的思路直接从偏好数据中优化策略不需要训练 Reward Model也不需要 RL 训练循环。DPO 的核心洞察是RLHF 的最优解可以被重新参数化为一个简单的分类损失函数。给定一对 (preferred response, rejected response)DPO 直接最大化 preferred response 的对数概率相对于 rejected response 的优势同时通过 reference model 进行正则化。然而随着实践的深入DPO 暴露出一些局限性催生了一系列变体方法核心改进适用场景数据需求DPO用分类损失替代 RL通用对齐Pairwise 偏好对SimPO移除 reference log-ratio梯度更稳定噪声数据、众包标注Pairwise 偏好对ORPO在 odds-space 中优化处理类别不平衡多语言、长尾数据Pairwise 偏好对KTO基于前景理论的不对称损失高风险领域法律、医疗Pointwise只需好/坏标签值得注意的是DPO 系列方法属于 offline 方法——它们使用预先收集的静态数据进行训练不需要在训练过程中让模型生成新的回答。这使得它们比 PPO/GRPO 等 online RL 方法更简单、更稳定但也意味着它们无法从模型自身的探索中学习在提升推理能力方面不如 online RL 方法有效。3.7 DeepSeek-R1纯 RL 训练推理模型的里程碑DeepSeek-R1 是 2025 年初最具影响力的工作之一它首次证明了纯 RL 训练不需要 SFT就能让模型涌现出强大的推理能力。DeepSeek-R1 的训练分为两条路线R1-Zero纯 RL 路线直接在预训练的 DeepSeek-V3 基座模型上使用 GRPO RLVR 进行训练完全跳过 SFT 阶段。令人惊讶的是模型在训练过程中自发涌现出了复杂的推理行为——包括自我反思Wait, let me reconsider...、问题分解、多路径探索等。这些行为并非被显式编程而是 RL 训练过程中自然产生的被称为 Aha moment 。R1完整路线在 R1-Zero 的基础上加入了 SFT 数据进行冷启动cold start然后再进行 RL 训练。这种方式产出的模型在格式规范性和可读性上优于 R1-Zero同时保持了强大的推理能力。DeepSeek-R1 的训练过程中还有一个重要发现随着 RL 训练的推进模型生成的回答长度会自然增长——模型学会了多想一会儿来解决更难的问题。这本质上是 inference-time scaling 的训练端体现。3.8 GRPO 的改进DAPO、Dr.GRPO 和工程技巧原始的 GRPO 在大规模训练中存在一些微妙的问题催生了一系列改进工作 Entropy Collapse熵坍塌是最严重的问题随着训练推进策略的熵快速下降模型对同一个 prompt 采样出的 G 个回答变得几乎完全相同失去了探索能力。这在 RL 中是经典的 exploration vs. exploitation 困境。DAPODecoupled Alignment Policy Optimization 针对这些问题提出了四个关键改进第一Clip-Higher对正 advantage 的回答放宽 clipping 上界从提高到其中鼓励模型更大胆地探索好的方向同时保持对坏方向的严格约束。第二Dynamic Sampling过滤掉那些个回答全对或全错的 prompt。全对意味着这个问题太简单、没有学习价值全错意味着太难、当前学不会。只保留有区分度的 prompt 进行训练。第三Overlong Filtering对超过最大长度限制的回答不给予惩罚设 reward 为 0而不是像原始 GRPO 那样给负奖励。这避免了模型学会为了不被惩罚而生成短回答的不良行为。第四Token-level Loss按 token 而非 sequence 计算损失避免长序列在梯度中被过度加权。Dr.GRPO 则发现了 GRPO 中 length normalization 引入的 length bias 问题并通过移除这一归一化来修复。4. 全局视角技术如何协同工作理解了各个组件之后让我们看看它们如何在一个完整的 Post-training pipeline 中协同工作。以当前主流的推理模型训练流程为例阶段一SFT 冷启动。使用高质量的指令跟随数据和推理数据包含 chain-of-thought对基座模型进行监督微调。这一步的目标是让模型学会基本的输出格式和推理模式。阶段二RL 推理训练RLVR。在数学、代码等可验证领域使用 GRPO或其改进版本 DAPO进行大规模 RL 训练。这一步是推理能力提升的核心。阶段三偏好对齐。使用 DPO 或 RLHF 对模型进行最终的偏好对齐确保模型的输出风格、安全性和有用性符合要求。阶段四拒绝采样蒸馏可选。用训练好的大模型生成高质量的推理数据蒸馏到更小的模型中。DeepSeek-R1 就是通过这种方式将推理能力蒸馏到 1.5B~70B 的小模型中。5. 前沿方向2025-2026 年的新趋势5.1 Agentic RL从回答问题到完成任务传统的 RLHF/RLVR 训练的是单轮问答能力而 Agentic RL 则训练模型在多步骤任务中交替进行推理和工具调用。例如Search-R1 训练模型学会什么时候该搜索、搜索什么、如何利用搜索结果ReTool 训练模型学会在推理过程中调用计算器、代码解释器等工具。Agentic RL 面临的核心挑战包括多轮交互中的 credit assignment哪一步决策导致了最终的成功或失败、稀疏奖励只有任务完成时才有反馈、以及推理与工具使用之间的资源竞争。5.2 Reward Model 的演进Reward Model 正在从简单的标量打分模型演进为更复杂的形式 Process Reward ModelPRM 对推理的每一步进行评分而非只看最终答案Generative Reward Model 用 LLM 本身作为 judge 来评估回答质量Multi-objective Reward 同时优化多个维度准确性、安全性、简洁性等。5.3 Synthetic Data 的角色合成数据在 Post-training 中的重要性持续上升。当前的最佳实践是用强模型生成大量候选回答通过 verifier 筛选出正确的再用这些数据进行 SFT 或作为 RL 的 warm-up。这种生成-验证-训练的循环正在成为标准范式。6. 总结与关键要点LLM Post-training 是一个快速演进的领域但其核心逻辑可以归纳为以下几点第一SFT 是基础但不够。 SFT 教会模型输出的格式和风格但无法让模型学会超越训练数据的推理能力。对于对齐和推理我们需要更强大的训练信号。第二RL 是提升推理能力的关键。从 PPO 到 GRPORL 算法在不断简化和高效化。GRPO 去掉了 Critic 模型DAPO 进一步解决了熵坍塌等工程问题。DeepSeek-R1 证明了纯 RL 就能涌现推理能力。第三奖励信号的设计至关重要。从 RLHF人类反馈到 RLAIFAI 反馈再到 RLVR可验证奖励奖励信号的获取方式在不断演进。RLVR 在可验证领域数学、代码表现出色但如何将其扩展到开放域任务仍是开放问题。第四Online RL vs. Offline Preference Optimization 各有所长。 DPO 等 offline 方法简单稳定适合偏好对齐PPO/GRPO 等 online 方法能从探索中学习更适合提升推理能力。实践中通常两者结合使用。第五Agentic RL 是下一个前沿。从单轮问答到多轮工具使用Post-training 正在向训练完整的智能体方向发展。7. 参考文献[1] https://arxiv.org/abs/2503.06072[2]https://medium.com/fahey_james/dpo-isnt-enough-the-modern-post-training-stack-simpo-orpo-kto-and-bey[3] https://icml.cc/virtual/2025/poster/44492[4] https://arxiv.org/abs/2203.02155[5] https://arxiv.org/abs/2309.00267[6] https://arxiv.org/abs/1707.06347[7]https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training[8] https://arxiv.org/abs/2402.03300[9]https://www.emergentmind.com/topics/reinforcement-learning-with-verified-rewards-rlvr[10] https://arxiv.org/abs/2501.12948[11] https://arxiv.org/abs/2305.18290[12] https://arxiv.org/abs/2503.14476[13] https://cameronrwolfe.substack.com/p/grpo-tricks[14] https://arxiv.org/abs/2602.00994[15] https://huggingface.co/blog/LinkedIn/gpt-oss-agentic-rl编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

如何5分钟掌握百度网盘秒传：免下载极速传输终极指南

如何5分钟掌握百度网盘秒传：免下载极速传输终极指南【免费下载链接】baidupan-rapidupload 百度网盘秒传链接转存/生成/转换网页工具 (全平台可用) 项目地址: https://gitcode.com/gh_mirrors/bai/baidupan-rapidupload 你是否曾经看着别人瞬间"变出&…...

2026/4/13 15:13:18 阅读更多 →