
测试时扩展赋予 LLM 前所未有的推理能力,强化学习是引发复杂推理的核心技术。本文主要讨论用于强化大语言模型测试时扩展能力的几种在线学习算法。
Proximal Policy Optimization (PPO)
PPO 引入了一个用于策略优化的裁剪代理目标。通过使用剪辑将策略更新限制在前一个策略的近端区域内,PPO 稳定了训练并提高了样本效率。具体而言,PPO 使用策略模型(
使用 PPO 对大语言模型进行偏好微调时的目标函数如下:
其中
- (q, a) 为从数据分布
中采样的问答对。 是截断范围,用于控制策略更新幅度。 是时间步 t 的估计优势,可理解为当前状态下采取某一行为相比平均水平的收益。
通过 Generalized Advantage Estimation (GAE) 计算 Advantage:
为了计算 Advantage,需要我们准备好 Reward Model, Value Model。在每一步训练中,PPO 算法将依据目标函数梯度对 Policy Model 和 Value Model 执行同步更新。
Group Relative Policy Optimization (GRPO)
GRPO 在 PPO 的基础上消除了对 Value Model 的依赖 (Reward Model 与 Value Model 的奖励不对齐容易加重训练负担),并通过组相关方式估计优势。
对于特定的问答对 (q, a),策略模型生成一组 G 个单独的响应
与 PPO 相似,GRPO 也采用目标剪裁 + KL 处罚设计目标函数:
其中
GRPO 的特点是在样本级别计算目标,其首先计算组中生成序列的平均损失,再平均不同样本的损失,DAPO 在这一点做出改变。
Decouple Clip and Dynamic sAmpling Policy Optimization (DAPO)
问题:这些公式推导类文章的创新点来源?实践?灵感?
与传统的 RLHF 算法不同,DAPO 和 GRPO 的提出目的都是思维链扩展,而 DAPO 认为训练一个长 COT 模型分布会与初始模型存在比较大的 divergence,因此 KL 限制并不是必要,对其进行了移除。
Reward Model 的使用带来 reward hacking 的潜在风险,DAPO 使用最终推理结果的正确性来衡量奖励大小,显式激发模型正确推理。
DAPO 的整体思路与 GRPO 类似,通过对与答案 a 对应的查询 q 进行一组 G 次重复采样得到输出,并通过以下目标函数优化策略:
DAPO 对 GRPO 做出如下改进:
扩张剪裁上界(Clip higher)
在朴素 PPO / GRPO 中观察到 Entropy Collapse,通过对 clip 函数的上下区间解耦,并单独扩展 clip 的上界来减轻早期不充分探索对于模型表现的影响。
动态采样 (Dynamic Sampling)
由于 DAPO 奖励设计的独特性,若组中奖励均为 1 时,计算得到的优势将为 0。零优势将导致更新梯度为 0,从而降低样本效率。因此,DAPO 使用过采样 + 过滤维护组内样本的多样性,保证依据有效梯度开展训练。
作者也观察到,使用动态采样的 DAPO 带来更快的性能提升。
Token-level 策略梯度损失
此前提到过,GRPO 使用样本级损失计算,该方法为每个样本在最终的损失计算中分配了相同的权重,导致长序列的奖励会在整体影响中不成比例地降低(对样本内 token 求平均 + 等权聚合)。该做法忽略了 token 数量对实际影响的差异。
Token level 的奖励信息缺失,导向:(1)高质量推理 token 不被注意;(2)低质量冗余 token 不被惩罚。
解决方法:在 token-level 计算损失,具体来说,将所有样本的所有 token 的 Advantage 求和计算总得分,再对 token 总数求平均值。
这篇文章写作一个比较有意思的地方:ablation 和 method 相辅相成。
超长奖励塑造(Overlong Reward Shaping)
在 RL 训练中,通常设置一个 max_new_token 对于过长序列进行截断。对于截断样本的不合理奖励塑造会导致奖励噪声,显著扰乱训练进程。
- 超长样本过滤(overlong filtering):将截断样本的损失进行屏蔽,可观察到训练过程显著稳定。
- 软超长惩罚(soft overlong punishment):一种长度感知惩罚机制。定义一个惩罚区间,区间内响应越长,惩罚越大,超过右边界,收到恒定最大惩罚。
训练算法
实验效果
- training framework: Verl
- Base model: DeepSeek-R1-Zero-Qwen-32B
- Baseline: GRPO
- Benchmark: avg@32 on AIME 2024
思考
DAPO 的 motivation 如下:
- 针对原生 GRPO 的复现效果低于纸面数据,完整训练细节未能披露。
- 训练过程中观察到熵崩溃、奖励噪声与不稳定训练。
DAPO 的 contribution 如下:
- 通过提高剪裁上界扩大低概率 token 增益,提高生成内容的多样性。
- 在 GRPO 的基础上改进损失信号粒度,关注 token 级优势,避免段输出。
- 重新设计奖励信号,引导模型关注结果,通过动态采样以稳定训练。
- 对于超长文本设计软惩罚,降低奖励噪声并稳定训练。
目前看来,DAPO 基本维持 GRPO 主要框架不变,而是加入了稳定训练的一些 trick,但是仍然取得了 SOTA 表现。