開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架

文章圖片

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架

文章圖片

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架

文章圖片

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架

文章圖片

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架

文章圖片

開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架


還在為強化學習(RL)框架的擴展性瓶頸和效率低下而煩惱嗎?當模型和集群規模達到上千塊 GPU 時 , 傳統的中心化控制器架構難免會遇到性能瓶頸、內存溢出甚至系統崩潰 。
事實上 , 當前最頂尖的基礎模型 , 從 DeepSeek-R1 , 到 o3-pro ,Gemini 2.5-pro 和 Claude-4 , 其卓越的推理能力都離不開大規模強化學習的加持 。 這充分表明 , RL Scaling 已經成為大模型領域邁向更高智能的 “軍備競賽” 核心 , 是大勢所趨 。 而 xAI 最近發布的 Grok 4 , 更是將這一趨勢推向了新的高度 , 他們直接在其擁有的 200000 塊 GPU 大集群上 , 以前所未有的 “后訓練規?!?來運行強化學習 , 旨在精進模型的推理能力 。
Grok 4 和其他頂尖推理模型的成功共同揭示了一個明確的事實:解決強化學習的擴展性瓶頸 , 已不再僅僅是一個工程挑戰 , 而是解鎖下一代 AI 高級推理能力、實現更強通用智能的關鍵所在 。 因此 , 對 RL Scaling 的投入和研究 , 是未來 AI 發展的重要方向和核心戰略 。
現在 , 來自上海創智學院的研究團隊正式推出 siiRL , 一個支持大規模高效強化學習訓練的 RL 框架!
siiRL 的核心在于其創新的 多控制器 范式和 全分布式 架構 , 它將數據加載、計算和數據流轉等任務均勻地分散到所有工作節點 , 從根本上解決了傳統 RL 框架中由單一控制器引發的性能瓶頸 。
線性擴展:全分布式架構帶來近乎線性的擴展能力 , 已在 1024 GPU 規模下成功驗證。 性能再飛躍:徹底消除單點瓶頸 , 實現最高達到 7 倍 的端到端訓練吞吐提升。 極致靈活:基于 DAG 的工作流定義 , 將算法邏輯與物理資源解耦 , 讓算法創新和實驗迭代快如閃電 , 并且能夠更靈活的支持多智能體協同訓練 。 跨硬件平臺兼容:siiRL 現已正式支持華為昇騰(Ascend)NPU , 為用戶提供在不同的硬件平臺上進行 RL 訓練的高性能選擇 。 開箱即用:全面開源 , 輕松部署 。
論文鏈接: https://arxiv.org/abs/2507.13833 代碼鏈接: https://github.com/sii-research/siiRL傳統 RL 框架為何遭遇瓶頸?
解構單控制器之痛

【開啟RL Scaling新紀元,siiRL開源:完全分布式強化學習框架】圖 1:傳統單控制器架構瓶頸 。 所有數據操作(初始加載、中間數據流轉)都需經過中心控制器 , 導致嚴重的通信開銷和擴展限制。
在主流的強化學習框架中 , 系統通常采用一種混合或單一控制器架構 , 即由一個中心化的控制器節點來調度整個執行邏輯和管理數據流。 無論是初始的數據集加載 , 還是各計算階段間海量中間數據的收集與分發 , 所有數據都必須流經這個中心節點。
這種設計在小規模下尚可運行 , 但一旦擴展到數百乃至上千 GPU , 該中心節點就會因巨大的 I/O 和通信開銷而成為系統的性能瓶頸。 更糟糕的是 , 海量數據很容易壓垮中心節點的內存 , 導致系統崩潰(OOM) , 從根本上限制了系統的可擴展性和穩定性。 此外 , 固化的算法流程也大大增加了研究者進行算法創新的難度。
siiRL 的高效秘訣:全分布式架構
為了徹底解決上述痛點 ,siiRL 創新性地采用了 全分布式架構 和 多控制器范式 , 移除了中心節點 , 將數據與計算的調度權下放到每一個工作單元。

圖 2:siiRL 架構概覽
siiRL 的整體設計包含三大核心組件:
a. DAG Planner (DAG 規劃器):用戶可以通過配置文件靈活定義一個代表完整 RL 工作流的 有向無環圖(DAG)。 DAG Planner 負責接收這個邏輯圖 , 并將其自動解析、分解為一系列線性的執行任務 , 分發給每個 Worker。 這種設計將算法邏輯與物理執行完全解耦 , 賦予了研究者極大的靈活性。
b. DAG Worker (DAG 工作單元):作為框架的基本執行單位 , 每個 DAG Worker 綁定到一個 GPU , 并獨立執行由 DAG Planner 分配的任務鏈。 它通過動態函數分發機制 , 將 DAG 節點定義(如角色、類型)與具體的計算函數實現解耦 , 使得框架極易擴展。
c. Data Coordinator (數據協調器):它負責管理整個數據生命周期 , 確保數據在全分布式系統中的高效、正確流動。
i. Distributed Dataloader:在初始加載階段 , 每個 Worker 只加載自己所需的數據分片 , 通過并行加載的方式從源頭避免了單點瓶頸。
ii. Distributed Databuffer:在階段轉換時 , 當并行策略(如數據并行度)發生變化 , Databuffer 會自動完成跨節點的數據重組與分發 , 確保數據流無縫銜接。

圖 3:Distributed Databuffer 示意圖 。 當數據并行從 2(生成階段)變為 4(訓練階段)時 , Databuffer 自動將數據重新切分并分發給正確的 Worker。
效果驗證:速度與擴展性雙豐收 ,
性能依舊強勁!
我們在涵蓋 7B 到 72B 的多種模型尺寸和算法上 , 將 siiRL 與當前最主流的開源框架 verl 進行了全面對比 。 實驗結果證明了 siiRL 架構的巨大優勢 。
在 PPO 和 GRPO 算法的端到端訓練中 , siiRL 的性能全面超越基線 。 尤其是在數據交互量更大的 GRPO 算法下 , siiRL 實現了高達 2.62 倍 的吞吐提升。 值得注意的是 , 在訓練 72B 模型時 , 基線框架在 32 卡配置下便遭遇了 OOM 錯誤 , 而 siiRL 則能輕松完成任務 。


圖 4:使用 PPO (上) 和 GRPO (下) 算法的端到端吞吐對比 。 siiRL(藍色)在所有模型尺寸和 GPU 規模上均大幅領先基線框架 verl(紅色)。
擴展性評估:千卡規模下的近線性擴展
得益于全分布式設計 , siiRL 在擴展至 1024 個 GPU 時仍表現出近乎完美的線性擴展能力。 如下圖所示 , 在訓練 32B 模型時 , 從 64 卡擴展至 512 卡 , 系統依然保持了 80.5% 的線性擴展效率。 由于基線框架在同等規模下無法運行 , 我們轉而測試其所能支持的最大訓練批次大小 , 在此條件下 , siiRL 在 VLM 設定下實現了驚人的 7 倍 速度提升 。

圖 5:siiRL 在 VLM 任務上的擴展性評估 , 展示了從 32 到 1024 GPU 規模下的近線性擴展能力。

圖 6: siiRL 和基線框架在基線框架支持最大訓練批次下對比實驗 , 7B 模型訓練吞吐提升最高達到 7 倍 。
數據密集型場景:優勢愈發明顯
在長上下文這類數據密集型任務中 , siiRL 的優勢愈發凸顯。 隨著上下文長度從 8k 增加到 64k , siiRL 相對于基線的領先優勢從 1.48 倍擴大到 2.03 倍。 這充分證明 , 數據通信量越大 , siiRL 的全分布式數據流設計的效率提升就越高。

圖 7:長上下文性能評估 。 隨著上下文長度增加 , siiRL(藍色)的性能優勢愈發顯著。
收斂性驗證:性能提升 , 精度無損
為了確保性能提升不以犧牲模型精度為代價 , 我們進行了收斂性對比實驗。 結果表明 , 在完全相同的超參數下 , siiRL 和基線框架的獎勵值與熵值曲線幾乎完全重合。 這意味著 , siiRL 在將訓練總耗時大幅減少的同時 , 保證了與基線完全一致的訓練效果。

圖 8:收斂性對比 。 siiRL 與基線框架的訓練曲線趨勢一致 , 證明其優化不影響模型最終精度。
未來計劃:
我們基于 DAG 的靈活設計 , 為構建復雜的 “多智能體系統” 奠定了天然且堅實的基礎 。 展望未來 , 我們計劃將多智能體支持作為系統的核心特性進行重點拓展 , 這包括支持更復雜的智能體交互工作流 , 擴展對多智能體強化學習(MARL)算法的兼容性 , 并實現更豐富的智能體與環境的交互機制 , 從而將我們的框架打造為一個功能全面的多智能體研發平臺 。
總結:
開啟大規模強化學習新紀元
本文介紹了 siiRL , 一個為解決大規模 RL 訓練中的擴展性和靈活性挑戰而設計的全新框架。 通過創新的全分布式架構 和用戶自定義的 DAG 驅動流程 , siiRL 不僅徹底解決了傳統單控制器設計的瓶頸問題 , 實現了千卡規模的近線性擴展和高達 7 倍的吞吐提升 , 還極大地增強了框架的靈活性 , 加速了算法的創新迭代周期。
我們相信這項工作為大規模強化學習研究鋪平了道路 , 提供了一個更高效、更靈活、真正可擴展的解決方案。 歡迎大家試用 siiRL , 共同邁向大規模 AI 的未來!
上海創智學院 AI Infra 團隊介紹
siiRL 誕生于上海創智學院產學研一體化人才培養模式 。
團隊成員包括來自國內 31 所頂尖高校的博士生和一線大廠豐富產業經驗的導師 , 含萬卡集群建設者、中國第一批 CUDA 開發者、國產芯片優化專家、互聯網大廠機器學習平臺負責人等 。 全鏈路開源:從硬件到框架 , 代碼 100% 開放 。 團隊核心目標:讓大模型跑在中國芯 , 讓 AGI 基石全球共享 。

    推薦閱讀