清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

文章圖片

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

文章圖片

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

文章圖片

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能



如果有人告訴你:不用分階段做強化學習、不搞課程學習、不動態調參 , 只用最基礎的 RL 配方就能達到小模型數學推理能力 SOTA , 你信嗎?

清華團隊用兩個 1.5B 模型給出了答案:不僅可行 , 還特別高效 。

核心發現: 單階段訓練 + 固定超參數 = SOTA 性能 + 省一半算力 意外之喜: 訓練曲線平滑得像教科書 , 4000 步沒遇到任何 \"典型問題\" 關鍵啟示: 充分 scale 的簡單 baseline , 可能比我們想象的強大得多




技術博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8 開源模型:https://huggingface.co/collections/hbx/justrl 評測腳本:https://github.com/thunlp/JustRL
背景:RL 訓練小模型的 \"技術軍備競賽\"

2025 年初 , DeepSeek-R1 開源后 , 如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向 。 短短幾個月內 , 這個領域經歷了快速的技術演進:早期的工作嘗試超參數調優和長度控制;隨后出現了多階段漸進訓練 , 每個階段調整數據難度和 RL 超參數;也有方法引入了課程學習 , 用部分解作為提示精心設計難度梯度;最激進的做法直接將 rollout 數量提升到 512 次 , 用算力進行暴力探索 。


【清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能】近期工作用到的技術對比

這些方法都取得了不錯的效果 , 性能在不斷刷新 。動態采樣、KL 重置、自適應懲罰、長度控制…… 各種穩定技術和優化 trick 被逐一引入 。 每個新工作都在前人基礎上增加新的模塊和機制 , 整個訓練 pipeline 變得越來越復雜 。

然而 , 這種復雜度的增長也帶來了困惑:這些技術真的都是必要的嗎? 當不同工作組合使用不同的技術子集時 , 我們很難分辨哪些是解決根本問題的 , 哪些只是在修補其他設計選擇帶來的副作用 。 更重要的是 , 如果 baseline 本身就不穩定 , 那么為了穩定它而加入的技術 , 可能只是在治標而非治本 。

清華團隊帶著一個樸素的想法開始了這項工作:\"如果我們用最基礎的配方 , 但訓練得足夠充分 , 能到什么水平?\"

于是就有了 JustRL—— 名字的意思是 \"就這樣\" 。

方法:極簡到極致的訓練配方

JustRL 的設計哲學是 \"減到不能再減\" 。 研究者刻意避免了近期工作中常見的復雜技術 , 只保留了最基礎的組件 。

訓練配方簡單到令人意外: 算法使用標準的 GRPO , 沒有任何魔改;訓練只有一個階段 , 從頭到尾連續進行;超參數完全固定 , 不做任何動態調整;數據來自常規的數學問題集 , 不進行離線難度篩選、不做數據增強、不使用 dynamic sampling 。

更關鍵的是 , 同一套超參數在兩個完全不同的起點上都有效 。第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座 , 這是一個相對較弱的起點(AIME 2024 準確率 29%);第二個實驗使用 OpenMath-Nemotron-1.5B , 這已經是一個相當強的基座(AIME 2024 準確率 61%) 。 研究者沒有針對不同模型調整任何參數 , 在 9 個數學推理基準(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評測顯示 , JustRL 達到了 1.5B 模型的最高水平 。



一個關鍵問題:會不會是用了更多算力?正好相反 , 我們用了更少 。

從弱基座起步的 JustRL-DeepSeek-1.5B , 最終在 9 項基準上平均達到 54.87% , 超越了采用 9 階段訓練的 ProRL-V2(53.08%) 。 更值得注意的是計算效率:JustRL 使用的總 token 預算約為 1.4E+11 , 僅為 ProRL-V2 的一半 , 為 BroRL 的五分之一 。 在算力 - 性能的權衡上 , JustRL 達到了一個新的平衡點 。

從強基座起步的 JustRL-Nemotron-1.5B 表現更加出色 , 平均準確率達到 64.32% , 略微超過使用課程學習的 QuestA(63.81%) 。 關鍵的差異在于 , QuestA 需要完整的推理軌跡來構建 hint , 還要分階段調整提示難度;而 JustRL 只需要標準的問題與標答 , 不需要額外的數據工程 , 總 token 預算也相對較小 。

整個訓練在 32 張 A800-80GB GPU 上進行 , 每個模型訓練約 15 天 。 相比一些需要多階段訓練、頻繁調參的方法 , JustRL 的工程復雜度和計算開銷都顯著更低 。 這些結果的意義不僅在于數字本身 , 更在于它們揭示的一個可能性:很多時候 , 我們可能低估了簡單方法在充分 scale 下的潛力 。

意外發現:4000 步訓練 , 異常平穩

也許比最終性能更令人驚訝的是訓練過程本身 。 研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態指標:策略熵、平均獎勵、響應長度 。

策略熵始終在 1.2-1.4 范圍內健康震蕩 , 沒有出現向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎勵從 - 0.6 單調上升到 +0.4 , 雖然有噪聲但趨勢清晰 , 沒有長時間的 plateau 或突然的下跌;響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens , 并穩定在這個范圍 , 這一切都是在沒有使用 overlong penalty 的情況下發生的 , 僅僅設置了最大 16k 的上下文長度 。


JustRL-DeepSeek-1.5B 的訓練 dynamic

這與很多現有工作報告的訓練困難形成鮮明對比 。

ProRL:\"我們觀察到熵崩潰和訓練不穩定性…\" BroRL:\"訓練到瓶頸只能加 rollout 加大探索…\" QuestA:\"需要課程學習避免熵崩塌(簡單題)或者減緩學習效率(難任務)…\"
而在 JustRL 的訓練中 , 這些問題都沒有出現 。 這給了我們一個有趣的觀察:也許在某些配置下 , 當 baseline 足夠簡單、訓練規模足夠充分時 , 一些在復雜系統中出現的穩定性問題可能就不容易發生 。

一個有趣的插曲:加 \"優化\" 反而更差

訓練過程中 , 團隊嘗試了兩個 \"按常理應該有幫助\" 的修改 。 這兩個實驗的結果頗具啟發性 。

第一個實驗是加入顯式的長度懲罰 。動機很直接:不少工作證明長度懲罰有效 , 那么添加一個懲罰項應該能讓模型輸出更簡潔 , 提高訓練效率 。 結果卻令人意外:性能從 55% 下降到 50% 。 深入分析發現 , 顯式懲罰導致了熵崩塌 , 熵值從 1.2-1.4 降到 0.4-0.6, 探索空間被過早壓縮 。 模型還沒來得及充分探索有效的解題策略 , 就被迫收斂到更短的響應上 。

第二個實驗是換用更寬松的驗證器 。邏輯同樣合理:減少假陰性(正確答案被誤判為錯誤)應該能提供更清晰的學習信號 。 但性能繼續下滑到 45% 。 可能的原因包括:更寬松的驗證器雖然減少了誤判 , 但也降低了學習信號的細粒度 ——\"幾乎正確\" 和 \"完全正確\" 不再有明顯區分;另一種可能是 , 嚴格的格式要求實際上在迫使模型發展更魯棒的內部推理 , 而寬松的驗證器消除了這種壓力 。


兩組 ablation 效果

這說明什么?一方面 , ablation 在接近 2k steps 的尺度上才開始分道揚鑣 , 意味著現有的 RL tricks ablation 可能在小規模上(幾十 / 幾百步)得到的結論不一定適合于大規模 scaling , 要驗證 tricks 的作用可能長期才能看出區別;另一方面 , 不是說這些技術本身不好(它們在其他工作中確實有效) , 而是:

技術的價值高度依賴于 baseline 的特性 在一個穩定的 baseline 上 , 某些 \"優化\" 可能適得其反 不是所有看起來合理的東西都該加
這個工作想說什么?

不是要證明 \"簡單永遠最好\"

不是說: \"復雜方法都沒用\" 而是說: \"我們可能低估了簡單方法在充分 scale 下的潛力\" 不是說: \"大家都做錯了\" 而是說: \"建立清晰的簡單 baseline , 能更準確地評估復雜技術的價值\" 不是說: \"永遠別用復雜技術\" 而是說: \"先驗證簡單方法的極限在哪 , 再決定是否需要復雜度\"
寫在最后:關于 \"夠用\" 的哲學

\"Perfection is achieved not when there is nothing more to add but when there is nothing left to take away.“
— Antoine de Saint-Exupéry Airman's Odyssey
JustRL 不是要證明 \"簡單就是答案\" 。 它想提醒的是:在不斷追求技術創新的同時 , 別忘了回頭看看 —— 最樸素的方法 , 在足夠的努力下 , 能做到什么程度 。

也許在 RL 訓練小模型這個領域 , 我們一直在做加法:加階段、加調度、加采樣策略、加穩定技巧 。 也許現在是時候試試奧卡姆剃刀的做法:減到不能再減 , 看看還剩什么 。 JustRL 的發現是:剩下的 , 可能已經夠用了 。

如果你正在做 RL , 不妨試試:先把簡單配方訓練充分 , 看看它能帶你走多遠 。

也許你會發現:夠用了 。

也許你會發現:還不夠 , 但現在你知道差在哪了 。

無論哪種 , 都是有價值的收獲 。 \"如無必要 , 勿增實體\" 。

    推薦閱讀