煉模不再“燒錢”？消耗40萬GPU·小時后，Meta開源強化學習重磅研究成果

2026-04-05 算法電池驍龍 iQOO Pad

文章圖片

文章圖片

【煉模不再“燒錢”？消耗40萬GPU·小時后，Meta開源強化學習重磅研究成果】

文章圖片

智東西
作者 | 王涵
編輯 | 漠影
強化學習是大語言模型解鎖關鍵能力的核心技術，隨著技術迭代，強化學習訓練的算力需求呈爆炸式增長，然而，強化學習訓練規?；矫骈L期缺乏科學方法論。
智東西10月24日消息， 10月17日， Meta發布了一篇名為《The Art of Scaling Reinforcement Learning Compute for LLMs》的論文。
論文就聚焦大語言模型（LLMs）強化學習（RL）訓練的規?；瘑栴} ，通過消耗了超40萬GPU小時算力的實驗，提出了可預測的強化學習規?；蚣芘c實用方案“ScaleRL” 。
研究發現， ScaleRL能夠系統性地利用小規模消融實驗來預測更大規模下的性能表現，具有明顯的可預測能力。
ScaleRL在數學與代碼的聯合訓練為兩個領域分別構建了清晰且平行的冪律趨勢，且在延長訓練后，實際性能曲線仍與外推曲線保持一致，具有較強的多場景適配能力。
目前，該研究的核心實驗數據與S型曲線擬合的代碼庫已經全部開源。
開源地址：
GitHub：https://github.com/devvrit/ScaleRL-Curve-Fitting
論文地址：
arxiv.org/abs/2510.13786

一、背景：強化學習訓練算力需求爆炸式增長，但缺少方法論強化學習是解鎖大語言模型關鍵能力的核心技術，從測試時推理到智能體交互，其性能直接決定模型的核心競爭力。
然而，隨著技術迭代，強化學習訓練的算力需求呈爆炸式增長——Deepseek-R1-Zero的強化學習訓練消耗10萬H800 GPU小時， OpenAI從o1到o3的強化學習算力投入更是增長超10倍。
與算力激增形成鮮明對比的是，行業在強化學習訓練規?；矫骈L期缺乏科學方法論。目前多數企業和機構的強化學習訓練還停留在“憑經驗調參、靠堆算力試錯”的階段，既沒有成熟的算力-性能評估體系，也缺乏明確的設計選擇指導，導致大量算力被浪費。這種“粗放式投入”不僅推高研發成本，更嚴重制約了學術社區的參與度和行業整體進展。
正是這一核心痛點，促使Meta團隊啟動了這項大規模研究。研究借鑒預訓練領域成熟的“縮放定律” ，目標為強化學習訓練建立可預測的算力-性能關系框架。
整個研究累計投入超40萬GPU小時的算力，覆蓋數學推理等典型任務，最終提出一套完整的解決方案。

二、核心突破：基于S型曲線提出RL算力-性能預測模型這個研究最引人注目的突破，就是提出了基于S型（Sigmoidal）曲線的RL算力-性能預測模型。
區別于預訓練常用的冪律模型，該曲線能精準捕捉強化學習訓練“低算力緩慢增長-中算力快速提升-高算力飽和”的客觀規律，通過三個關鍵參數構建起量化評估體系。該模型的核心公式為：
其中， A代表漸近性能上限，即高算力下模型能達到的性能天花板；B為縮放指數，直接反映算力效率，數值越大效率越高；C則是性能達到總增益50%時所需的算力，體現中期性能達成速度。
Meta研究團隊通過超40萬GPU小時實驗，對RL訓練的設計選擇進行消融，提煉出3條核心原則：
1、性能天花板（A）受損失函數、模型精度等關鍵設計影響；
2、多數常見設計僅影響算力效率，不改變性能上限；
3、穩定方案的縮放軌跡可通過小算力實驗外推。
基于以上原則， Meta研究團隊整合實驗中最優設計構建了一套最優配置體系ScaleRL 。
ScaleRL采用PipelineRL異步框架提升效率，選用CISPO損失函數增強魯棒性，采用FP32精度消除數值偏差，再配合零方差過濾與自適應prompt過濾優化數據質量，最后通過強制中斷實現穩定的長度控制。

三、ScaleRL實測：具有可預測性和多場景適配能力ScaleRL這一模型的最大價值在于“可預測性” 。以往要知道高算力下的訓練效果，必須投入完整訓練，現在通過小規模低算力實驗擬合曲線，就能精準外推高算力表現。
以某8B模型訓練為例，僅用前8000 GPU小時的數據擬合曲線， ScaleRL就可以外推16000 GPU小時的性能，且誤差極小，可大幅降低研發試錯成本。
為驗證模型可靠性，團隊還進行了大量消融實驗。結果顯示，對于ScaleRL等穩定方案，小算力實驗外推結果與實際訓練高度吻合。
更值得關注的是ScaleRL的多場景適配能力。在更大批次（2048）、更長序列（32768 tokens）、多任務（數學+代碼）及更大模型（MoE）等場景下，該方案均能保持可預測的縮放軌跡。
從研究數據上看，研究團隊在獨立同分布驗證數據集上對S型曲線進行擬合，對比了DeepSeek（GRPO）、Qwen-2.5（DAPO）、Magistral和Minimax-M1等常用訓練方案，并與ScaleRL進行對比。 ScaleRL以0.61的漸進獎勵值超越其他訓練方法。
此外，研究還提煉出關鍵的穩定性預警指標——生成截斷率。實驗發現，當訓練中的生成截斷率超過10%時，模型極易出現性能崩潰。
而ScaleRL通過強制中斷等長度控制設計，能將截斷率長期穩定在5%以下，為大規模訓練的穩定性提供了可靠保障。

結語：Meta的研究為強化學習訓練規?；峁┬峦黄芃eta團隊超40萬GPU小時的實驗投入，最終凝結為一套可預測、高適配的規模化解決方案，無疑為大語言模型強化學習訓練規?；峁┝送黄埔罁?。
為推動技術落地， Meta團隊不僅公開了研究的核心實驗數據，還開源了S型曲線擬合的極簡代碼庫，為全球AI研發者提供直接的技術工具。
這些成果連同開源的擬合代碼庫，為行業降本增效提供了支撐，也降低了學術社區參與大規模強化學習研究的門檻。

推薦閱讀

上一篇：iQOO15的屏幕為何這么牛？三星無偏光片技術詳解

下一篇：百度百科攜手《大學科普》、中國科學院大學科協發布科普?？嫦蛉珖咝０l行