-
Notifications
You must be signed in to change notification settings - Fork 1
Description
Author
- Mingjie Liu Shizhe Diao Ximing Lu Jian Hu Xin Dong Yejin Choi Jan Kautz Yi Dong
- NVIDIA
Abstract
- it remains contentious whether RL truly expands a model’s reasoning capabilities or merely amplifies high-reward outputs already latent in the base model’s distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance
- In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling
- Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@kevaluations, including scenarios where base models fail entirely regardless of the number of attempts
- Model: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
Introduction
-
By optimizing against verifiable objective rewards
rather than learned reward models, RL-based systems can mitigate the pitfalls of reward hacking [9–11] and align more closely with correct reasoning processes
• 수학 문제에서는 정답 여부에 따라 0 또는 1의 이진 보상을 부여합니다.
• 코드 생성에서는 통과한 테스트 케이스의 비율에 따라 연속적인 보상을 부여합니다.
• 논리 퍼즐에서도 특정 저장소(Reasoning Gym)가 제공하는 검증자를 통해 보상을 얻습니다. -
However, a fundamental question remains under active debate within the research community: Does reinforcement learning truly unlock new reasoning capabilities from a base model, or does it merely optimize the sampling efficiency of solutions already embedded in the base model?
-
identify two key limitations in existing research:
- (1) an overreliance on specialized domains like mathematics, where models are often overtrained during both pre-training and post-training phases, thereby restricting the potential for exploration; and
- (2) the premature termination of RL training before models can fully explore and develop new reasoning capabilities based on a limited amount of RL training, typically no more than hundreds of steps
-
ProRL, a recipe designed to enable extended RL training periods that facilitate deeper exploration of reasoning strategies. It enables more than 2k training steps and scale the training data across diverse tasks from traditional math and code tasks to STEM problems, logical puzzles, and instruction following
-
Using ProRL, we developed Nemotron-Research-Reasoning-Qwen-1.5B, the world’s best 1.5B reasoning model that significantly outperforms its base model, DeepSeek-R1-1.5B, and matches or even surpasses the performance of DeepSeek-R1-7B across a diverse range of benchmarks
- Furthermore, Nemotron-Research-Reasoning-Qwen-1.5B offers surprising new insights —
RL can indeed discover genuinely new solution pathways entirely absent in base models, when given sufficient training time and applied to novel reasoning tasks.
ProRL: Prolonged Reinforcement Learning
GRPO 요약
- 결국 critic (value) model을 제거하고, Actor (policy) model이 뱉는 샘플들의 group score안에서의 상대적인 우열을 기반으로 학습을 시도하는 어드벤티지 사용
ProRL
2.2.1 Mitigating Entropy Collapse
- A key challenge in prolonged policy optimization is entropy collapse, a phenomenon where the model’s output distribution becomes overly peaked early in training, resulting in sharply reduced entropy. When entropy collapses, the policy prematurely commits to a narrow set of outputs, severely limiting exploration
- 이 현상은 모델의 출력 분포가 훈련 초기에 지나치게 특정 값에 집중되어 엔트로피가 급격히 감소하는 현상을 의미
- This is particularly detrimental in methods like GRPO, where the learning signal depends on having a diverse set of sampled outputs to effectively estimate relative advantages. Without sufficient exploration, policy updates become biased, leading to stagnation in training.
- A common mitigation strategy is to increase the sampling temperature during rollouts. However, we find that this approach only delays the onset of entropy collapse rather than preventing it altogether, as entropy continues to decline steadily as training progresses. Nonethenless, we did employ high rollout temperature since encourages exploration by increasing the initial entropy
- 강화 학습(RL) 맥락에서 **"rollout" (롤아웃)**은 정책(policy)이 환경과 상호작용하여 데이터를 수집하는 과정을 의미합니다. 대규모 언어 모델(LLM)의 경우, 이는 현재 훈련 중인 모델(정책)이 특정 프롬프트에 대해 여러 개의 응답(response)을 생성하는 행위
- 데이터 수집: 롤아웃을 통해 모델은 다양한 가능한 출력 시퀀스를 생성하며, 이 과정에서 학습에 필요한 샘플(τ, response)을 얻습니다. 이 샘플들은 이후 정책 업데이트에 사용됩니다.
- 롤아웃 횟수: ProRL 연구에서는 각 프롬프트에 대해 n=16개의 응답을 샘플링하여 롤아웃을 수행했으며, 훈련 후반부에는 롤아웃 횟수를 16에서 32로 늘리기도 했습니다
- **"sampling temperature" (샘플링 온도)**는 언어 모델이 텍스트를 생성할 때 출력의 무작위성(randomness) 또는 다양성(diversity)을 조절하는 하이퍼파라미터입니다. 이는 모델의 최종 출력 확률 분포에 적용되어 다음 토큰(단어 조각)을 선택하는 방식에 영향을 미칩니다.
• 높은 온도 (ϵhigh):
◦ 온도 값을 높이면, 모델은 확률이 낮은 토큰(덜 확실한 선택지)도 선택할 가능성이 커집니다. 이는 출력 분포를 더 평탄하게(less peaked) 만들고, 결과적으로 모델이 더 다양하고 예상치 못한 응답을 생성하도록 장려합니다.
◦ ProRL 연구에서는 롤아웃 시 높은 샘플링 온도인 1.2를 사용했습니다.
◦ 이러한 높은 온도는 초기 엔트로피(initial entropy)를 증가시켜 탐색(exploration)을 장려하는 데 도움이 됩니다. 탐색은 모델이 새로운 추론 경로를 발견하고 기존의 좁은 출력 집합에 갇히는 엔트로피 붕괴(entropy collapse) 현상을 지연시키는 데 중요
2.3 Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO)
- 이전 policy와 지금의 policy의 확률 비율을 과하지 않게 제한했었는데, 이거 상한을 약간 풀어주는 것 + 적절한 문제를 보도록 샘플링해주는 기법 적용
- To address entropy collapse, we adopt several components from the DAPO algorithm
- which are specifically designed to maintain exploration and output diversity
- 어떤 것을 클립하는가?:
여기서 클립하는 것은 rθ(τ)입니다. rθ(τ)는 현재 정책(πθ)과 이전 정책(πold) 간의 **확률 비율(probability ratio)**로 정의됩니다: rθ(τ) = πθ(τ) / πold(τ). PPO와 GRPO 같은 알고리즘은 이 확률 비율이 너무 크게 변하는 것을 제한하여 정책 업데이트의 안정성을 확보합니다.
• 높은 ϵhigh의 효과: ϵhigh 값을 높게 설정함으로써, 알고리즘은 'clip-higher'를 촉진합니다. 이는 이전에 발생할 가능성이 낮았던 토큰들의 확률을 높여줍니다(uplifting the probabilities of previously unlikely tokens).
• 목적: 이러한 "clip-higher" 전략은 더 광범위한 탐색(broader exploration)을 장려하고 조기 모드 붕괴(premature mode collapse)를 줄이는 데 도움이 됩니다. 또한, 엔트로피(entropy)를 유지하는 데 기여합니다. 이는 모델이 훈련 초기에 특정 출력에 지나치게 집중하여 다양성을 잃는 엔트로피 붕괴(entropy collapse) 현상을 완화하는 핵심 전략 중 하나입니다
- DAPO employs dynamic sampling, filtering out prompts for which the model consis-
tently succeeds or fails (i.e., accuracy 1 or 0), as these provide no learning signal. This focus on intermediate difficulty examples further helps maintain a diverse learning signal during training- 너무 어렵거나 쉬운건 빼버려서 배울만한것들로 계속 일단 넣자는 전략인듯
2.3.1 KL Regularization and Reference Policy Reset
- 레퍼런스 정책에서 너무 멀어지지 않게 적당히 GRPO loss에 regularization으로 사용해줌. 근데 결국 멀어지긴해야되니까 적절히 주기적으로 리셋해줌
- While DAPO and temperature adjustment help slow entropy collapse, we find that explicit regularization via a KL divergence penalty provides a stronger and more stable solution
- This penalty not only helps maintain entropy but also serves as a regularizer to prevent the online policy from drifting too far from a stable reference, stabilizing learning and mitigating overfitting to spurious reward signals
- Recent works [4, 7, 5, 18] have argued for the removal of the KL penalty, citing that models naturally diverge during training on chain-of-thought reasoning tasks. We observe that this perspective often applies to base models prior to any supervised fine-tuning. In contrast, we begin from a well-initialized checkpoint (DeepSeek-R1-Distill-Qwen-1.5B) already capable of generating coherent CoT outputs. In this context, retaining a KL penalty is still beneficial for both stability and sustained entropy
1. 일부 최신 연구들의 주장 (KL 페널티 제거 의견):
◦ 최근 연구들은 Chain-of-Thought (CoT) 추론 작업에서 모델이 훈련 중에 **자연스럽게 발산(naturally diverge)**하는 경향이 있기 때문에 KL 페널티를 제거해야 한다고 주장했습니다.
◦ 여기서 '자연스러운 발산'은 모델이 학습 과정에서 새로운 추론 경로를 탐색하고 기존 분포에서 벗어나는 것을 의미할 수 있습니다. KL 페널티는 현재 정책(πθ)이 기준 정책(πref)으로부터 너무 멀리 떨어지지 않도록 제한하기 때문에, 이러한 자연스러운 발산을 저해할 수 있다는 관점입니다.
2. ProRL 연구진의 반론 또는 관찰:
◦ ProRL 연구진은 위와 같은 관점(KL 페널티 제거)이 주로 '어떠한 지도 미세 조정(supervised fine-tuning)도 거치지 않은 베이스 모델'에 적용되는 경우가 많다고 지적합니다. 즉, 초기 학습이 덜 된 모델의 경우 KL 페널티가 너무 엄격하게 작용하여 새로운 탐색을 방해할 수 있다는 것입니다.
◦ 대조적으로, ProRL은 학습을 시작할 때부터 "잘 초기화된 체크포인트"(DeepSeek-R1-Distill-Qwen-1.5B)를 사용합니다. 이 체크포인트는 이미 일관성 있는 CoT 출력을 생성할 수 있는 능력을 갖추고 있습니다.
3. ProRL이 KL 페널티를 유지하는 이유:
◦ ProRL 연구진은 이러한 '잘 초기화된' 모델을 사용한 학습 환경에서는 KL 페널티를 유지하는 것이 여전히 유익하다고 강조합니다.
◦ 안정성(stability) 유지: KL 페널티는 현재 온라인 정책(πθ)이 안정적인 기준 정책(πref)으로부터 "너무 멀리 벗어나지 않도록" 규제하는 역할을 하여 학습을 안정화하고 잘못된 보상 신호에 대한 오버피팅(overfitting)을 완화합니다.
◦ 엔트로피 유지(sustained entropy): 또한 KL 페널티는 훈련 초기에 모델의 출력 분포가 지나치게 좁아져 탐색이 제한되는 "엔트로피 붕괴(entropy collapse)" 현상을 완화하는 데 도움을 줍니다. 이는 정책 업데이트에 필요한 다양한 샘플 출력을 확보하는 데 중요합니다.
- We further observe that as training progresses, the KL term may increasingly dominate the loss, leading to diminishing policy updates. To alleviate this, we introduce a simple yet effective technique: reference policy reset.
- 기존 policy의 스냅샷중 하나 가져오되, 가져올때 optim state도 같이 초기화
3 Nemotron-Research-Reasoning-Qwen-1.5B: The World’s Best 1.5B
Reasoning Model
3.1 Training Dataset
- verifiable dataset of 136K problems across math, code, STEM, logic puzzles,
and instruction following (in five task domains)
3.2 Training Setup
- use verl [19] for reinforcement learning training. We adopt enhancements of GRPO [16] proposed by DAPO [4], decoupling clipping hyperparameters with ϵlow = 0.2,ϵhigh = 0.4, and dynamic sampling for filtering prompts that are too easy or difficult (with accuracy equal to 1 and 0).
- For rollout, we sample n= 16 responses for each prompt with a context window limit of 8096 and use a high sampling temperature of 1.2. We set batch size to 256 and mini-batch size to 64 (equating to 4 gradient updates per rollout step).
- For training we use the AdamW [20] optimizer with a constant learning rate of 2 ×10−6. We conduct training on 4 8 x NVIDIA-H100-80GB nodes
- the whole training runs for approximately 16k GPUs hours
3.3 ProRL Training Dynamics
- final stage (~200 steps), we increase the context window to 16k tokens
- Meanwhile, the validation performance, measured by both pass@1 and pass@16, consistently improved and scaled with increased training computation.
4 Analysis: Does ProRL Elicit New Reasoning Patterns?
6 Conclusion
ProRL incorporates KL divergence penalties and periodic reference policy resets to maintain training stability over long durations. Using this approach, we developed a state-of-the-art 1.5B parameter generalist reasoning model trained on diverse datasets spanning mathematics, coding, STEM, logical puzzles, and instruction following tasks. Our analysis reveals ProRL is particularly effective for tasks where the base model initially struggles. Most importantly, ProRL enables strong generalization to out-of-distribution tasks and increasingly complex problems, demonstrating that extended RL training helps models internalize abstract reasoning patterns transferable beyond the training distribution.