RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

文章圖片

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

文章圖片

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

文章圖片

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

文章圖片

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

文章圖片

RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案

機器之心報道
機器之心編輯部
近期 , 強化學習(RL)技術在提升語言模型的推理能力方面取得了顯著成效 。
然而 , 后訓練究竟是真正擴展了模型的推理能力 , 還是僅僅挖掘了預訓練中已有的潛力?目前尚不明確 。
一個核心挑戰在于現代訓練流程缺乏可控性:大規模預訓練語料庫不夠透明 , 中期訓練往往缺乏充分研究 , 且 RL 目標函數與未知的先驗知識之間存在復雜的交互作用 。
為了回答這個問題 , 來自卡耐基梅隆大學(CMU)的研究者通過構建基于 GSM-Infinite 的可控合成數據框架 , 在完全解耦的環境下 , 定量分析了預訓練、Mid-training(中期訓練/CPT)和 RL 三者對模型推理泛化能力的因果影響 。 旨在剝離并獨立分析預訓練、中期訓練以及基于 RL 的后訓練各自的因果貢獻 。

https://x.com/xiangyue96/status/1998488030836044112
研究者從兩個維度對模型進行評估:針對更復雜組合的外推泛化能力 , 以及跨越不同表層語境的情境泛化能力 。 利用該框架 , 研究者調和了關于 RL 有效性的不同觀點 。
研究表明:

  • 僅當預訓練留有足夠提升空間 , 且 RL 數據針對模型的能力邊界(即那些雖具難度但尚未超出模型能力范圍的任務)時 , RL 才能帶來真正的能力增益(pass@128) 。
  • 情境泛化需要極少但充分的預訓練接觸 , 在此之后 RL 便能實現可靠的遷移 。
  • 在固定計算量下 , 相比于僅使用 RL , 中期訓練能顯著提升性能 , 證明了其在訓練流程中處于核心地位卻未被充分探索 。
  • 過程級獎勵能減少獎勵破解(Reward Hacking)現象并提高推理的忠實度 。

  • 論文標題: On the Interplay of Pre-Training Mid-Training and RL on Reasoning Language Models
  • 論文地址:https://arxiv.org/abs/2512.07783
  • Github:https://github.com/Interplay-LM-Reasoning/Interplay-LM-Reasoning
  • HuggingFace:https://huggingface.co/Interplay-LM-Reasoning
綜上所述 , 這些結果闡明了預訓練、中期訓練和 RL 之間的相互作用 , 為理解和改進推理語言模型的訓練策略奠定了基礎 。
該工作登上了 Alphaxiv 榜一 。

同時該工作在 AI 社區收獲了一大波好評 , ViT 作者之一 Lucas Beyer 也現身評論區 。

核心方法:
完全可控的實驗沙盒
為了從因果層面解構大模型的推理能力來源 , 研究團隊并未直接使用現有的黑盒大模型或不可知的互聯網語料 , 而是設計了一套嚴密的可控合成數據框架 。 該框架基于 GSM-Infinite 生成技術 , 旨在從源頭控制數據分布、推理深度與語境廣度 。

數據生成框架與任務設置概覽
基于依賴圖(DAG)的數據生成
該框架的核心理念是將「推理結構」與「表面語境」完全解耦 。

語境渲染:在確定了推理骨架后 , 系統通過應用不同的「語境模板」(如動物園、學校等場景) , 將抽象的數學圖渲染為自然語言問題 。 這種分離使得研究者能夠考察模型是真正學會了推理邏輯 , 還是僅僅記住了特定的文本模式 。
三階段訓練流程的嚴格隔離
為了避免數據污染導致的評估偏差 , 研究者定義了三個互不重疊的訓練階段 , 并在各階段精確調配數據分布:
  • 預訓練:使用 10B token 的數據 , 主要包含基礎的推理原語(Primitives)和規則 。 重點在于讓模型掌握基礎能力(op=2-10) , 同時保留更深層任務作為未見過的測試集 。
  • 中期訓練:這是一個連接預訓練與 RL 的「橋梁」階段 。 它使用與 RL 階段相似的數據分布(即模型能力邊緣的數據) , 旨在對齊模型的內部表征 , 使其做好「RL 就緒(RL-ready)」的準備 。
  • 后訓練(Post-training / RL):采用 GRPO 算法 , 針對特定的任務難度和語境進行強化學習 , 以探索模型在特定獎勵信號下的能力邊界 。
過程級驗證評估
為了防止模型「猜對答案」或通過錯誤的推理路徑得出正確結果(即 Reward Hacking) , 該研究引入了過程級驗證 。 系統不僅檢查最終答案 , 還會解析模型生成的思維鏈 , 將其還原為依賴圖 , 并與真實的一步步推理過程(Ground Truth DAG)進行比對 。 只有當推理步驟和最終答案全對時 , 才被判定為通過 。
解構能力涌現的四個關鍵發現
基于上述框架 , 研究者進行了一系列控制變量實驗 , 得出了關于 RL、預訓練和中期訓練相互作用的四個關鍵結論 , 有力地調和了學術界關于「RL 是否能創造新能力」的爭議 。
RL 的效用取決于「能力邊緣」
RL 并非在任何情況下都能提升推理能力 。
對于預訓練中已充分掌握的簡單任務 , RL 只能提升 pass@1(即減少失誤) , 無法提升模型的上限(pass@128) 。
真正的能力躍遷發生在模型「能力邊緣」的任務上(例如預訓練覆蓋了 op=2-10 , RL 針對 op=11-14) 。 在這一區間 , RL 能夠通過探索帶來顯著的外推性泛化增益 。 如果任務難度過大(op=15-20) , 超出了模型的探索范圍 , RL 的收益也會消失 。
因此 , RL 的訓練數據必須經過精心校準 , 瞄準模型的「能力邊緣」 , 既不能太簡單也不能太難 。

不同難度任務下的 RL 表現
泛化的種子:1% 的預訓練暴露至關重要
在考察模型能否將推理能力遷移到全新語境時 , 研究發現 , 如果預訓練中完全沒有接觸過某種長尾語境(0%) , 即便 RL 階段大量訓練 , 模型也無法實現有效遷移 。

因此 , RL 無法無中生有 , 它需要預訓練提供最基礎的「原語」作為抓手 。

預訓練數據混合比例對情境泛化的影響
中期訓練是計算效率的關鍵杠桿
在固定的計算預算(Compute Budget)下 , 如何分配中期訓練和 RL 的比例?
Mid-Training + RL > Pure RL:引入中期訓練階段比單純增加 RL 步數效果更好 。
分配策略:實驗表明 , 對于極難任務(OOD-Hard) , 「少量中期訓練(建立先驗)+ 大量 RL(深度探索)」的組合是最佳策略;而對于中等難度任務 , 增加中期訓練的比重能帶來更穩定的 pass@1 表現 。
中期訓練起到了「分布橋梁」的作用 , 極大地提升了 RL 的樣本效率和最終性能上限 。

不同算力分配策略下的性能對比
過程獎勵抑制投機取巧
針對 RL 常見的獎勵破解問題——即模型利用捷徑獲取高分但推理邏輯錯誤 , 研究引入了過程監督 。
實驗數據表明 , 將稀疏的結果獎勵與密集的過程獎勵相結合 , 能顯著減少結構性錯誤(如遺漏步驟或依賴關系錯誤) 。 這種混合獎勵機制在長鏈條推理任務($op=15\\text{-20$)中帶來了穩定的 pass@1 提升 。
過程級信號能夠規范 RL 的搜索方向 , 確保能力的提升是建立在忠實推理基礎之上的 。

不同獎勵機制的效果對比
結語
這項工作通過解構訓練流程 , 給出了明確的實踐指導:
RL 數據設計:應針對模型的「能力邊緣」構建數據集 , 不要浪費算力在過易或過難的任務上 。
預訓練策略:必須確保長尾領域的原子能力(Primitives)有至少 1% 的覆蓋率 , 為 RL 留出接口 。
【RL是「點金石」還是「挖掘機」?CMU 用可控實驗給出答案】算力分配:根據目標任務的難度 , 動態調整中期訓練與 RL 的比例 。 攻克難題需要更多 RL , 提升穩定性需要更多中期訓練 。

    推薦閱讀