北航，清華，北大聯合發布：異構智能體協同強化學習！

2026-04-07 北京清華大學

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

論文標題：Heterogeneous Agent Collaborative Reinforcement Learning 論文鏈接：https://arxiv.org/abs/2603.02604 Github Page: https://zzx-peter.github.io/hacrl/ Huggingface: https://huggingface.co/papers/2603.02604主要貢獻
異構協同強化學習（HACRL）新范式：多個在參數狀態、模型規模乃至架構家族上存在異構性的智能體，在訓練階段共享經過驗證的 rollouts 實現協同策略優化，而在推理階段各自獨立部署執行。該范式既不同于需協同執行的多智能體強化學習，也區別于單向的 \"教師 — 學生\" 知識蒸餾 ——HACRL 首次實現了異構智能體間的雙向互學與獨立部署的統一：訓練時協同優化，推理時各自獨立運行。異構協同策略優化（HACPO）算法，通過四項關鍵技術彌合智能體間的能力與策略分布差異。實驗結果：在多個數學推理基準上，使所有參與智能體的性能均獲得一致提升，平均性能超越基線方法 3.3% ，同時僅需一半的采樣成本，為實現高效的多智能體協同學習指明了新方向。問題背景：昂貴的 “單打獨斗” ，寶貴的 “異構數據”
當前大模型強化學習微調中， rollout 采樣與校驗成本是整個微調流程的核心瓶頸，嚴重制約訓練效率與規模化落地。同時，現有的強化學習微調范式普遍采用孤立優化范式，模型各自獨立采樣、驗證與策略更新。這就導致模型生成的高質量軌跡僅用于自訓練迭代，寶貴探索經驗無法復用，樣本利用率極低，造成巨大算力浪費。與此同時，大模型生態呈現顯著異構性，不同架構、尺寸、狀態的模型面向同一任務生成的 rollouts ，在任務目標與格式上高度兼容，且攜帶互補知識。然而現有多智能體強化學習主要針對多智能體組成統一的系統，無法支持異構模型訓練時協同優化，推理時各自獨立運行的場景；知識蒸餾難主要針對同構模型單向學習，難以支持異構模型的雙向學習。目前的范式中，異構數據的價值沒有被有效發掘。論文的核心問題是：一個智能體能否利用其他異構智能體生成的 rollouts 來同時提升效果和效率？
異構智能體共享 Rollout：HACRL 范式
為了解決訓練過程中模型的 “單打獨斗” ，該工作提出了一個新方法 HACRL (Heterogeneous Agent Collaborative Reinforcement Learning) ，多個異構智能體在訓練時可以共享彼此的 Rollout (Response + Reward) ，推理時則各自獨立完成任務。 HACRL 范式使得原本獨立的智能體可以互相學習，同時提高了 Rollout 利用率。
HACRL 和現有的其它范式可不能混為一談：
HACRL 不同于多智能體強化學習 (MARL): HACRL 強調多個獨立的智能體在訓練時共享 Rollout 進行協同優化，但是在推理時彼此是獨立的；MARL 則是多個智能體在推理時相互合作。總結來說， HACRL 訓練多個獨立的模型，而 MARL 則是在訓練一個整體的系統。 HACRL 也不同于在線 / 離線的蒸餾: HACRL 支持多個異構的智能體相互學習，而蒸餾則是更強的教師模型單向地向弱小的學生模型傳遞知識。總結來說， HACRL 是異構模型的相互學習，而蒸餾則是同構模型的單向傳遞。
異構智能體強化學習 (HACRL) 與多智能體強化學習 (MARL)、知識蒸餾 (KD)
核心算法：HACPO
HACRL 可不是簡單的 Rollout 共享！因為異構智能體之間存在著能力差異和策略分布差異，如果異構模型來自于不同的廠家，那么模型的分詞器也會不同，在共享數據時出現工程問題。
為了求解 HACRL 問題，該工作提出了一個新算法 HACPO (Heterogeneous Agent Collaborative Policy Optimization) 。它在基礎的強化學習優化方法之上，引入了四項量身定制的修改，以彌合異構智能體之間的能力與分布差異。同時，該工作在理論證明了，利用自身和其它智能體 rollout 進行的梯度更新方向，在期望上具有小于 90 度的夾角。這表明 HACPO 是有效的。

HACPO 的算法流程圖
1. 智能體能力感知的優勢估計 (Agent-Capability-Aware Advantage Estimation)
該工作提出了一種能力感知的估計器，它根據每個智能體的相對性能，為其分配不同的組間優勢基線。直觀上，如果一個回應由更強的智能體生成，其優勢應更高；若由更弱的智能體生成，則其優勢應更低。理論上，該估計器是無偏的。

2. 模型能力差異系數 (Model Capabilities Discrepancy Coefficient)
為了鼓勵向更強的智能體學習，同時對較弱的智能體保持保守，該工作使用能力比率來調節有效優勢。能力比率

扮演兩個互補的角色：（i）基線校準 — 在估計能力感知基線時重新縮放獎勵，以對齊異構智能體間的獎勵統計量；（ii）梯度調制 — 它作為一個類似學習率的因子，放大來自更強智能體的梯度，并衰減來自更弱智能體的梯度。調制后的優勢為：

3. 指數重要性采樣 (Exponential Importance Sampling)
該工作采用序列級別的重要性比率并將其擴展到異構多智能體設置，同時引入了非梯度指數重加權。這種設計使智能體偏向于從那些輸出分布與其自身更一致的 rollout 中學習。對于具有不兼容分詞器的異構智能體組合，將對應反分詞器（detokenizer）得到文本，再使用目標智能體的分詞器（tokenizer）重新進行分詞。

4. 逐步裁剪 (Stepwise Clipping)
跨智能體重要性采樣比率在步驟之間和步驟內部都會不規則地波動。該工作首先對跨智能體回應應用非對稱裁剪邊界，以確保跨智能體回應只能被降權，而永遠不會被增權。然后，應用逐步裁剪策略，以防止跨智能體經驗在批次內的后期更新中占據主導地位，從而提高訓練穩定性。

實驗現象：尺有所短，寸有所長
異構模型間的取長補短
實驗設置與對比基線
該工作在 MATH 數據集上選取 7500 道高質量數學問題，并在七個具有挑戰性的基準測試上評估 HACPO 的性能。為嚴格驗證協同訓練范式的有效性，將 HACPO 與下列三類基線方法進行了對比：
標準單智能體基線：包括 GRPO、GSPO（Rollout 成本相同，參數更新成本只有 HACPO 的一半）等資源基線（GSPO×2）：用雙倍 rollout 和更新次數，以排除因為數據量增大帶來的提升（Rollout 成本是 HACPO 的一倍，參數更新成本相同）樸素協同基線（Naive）：簡單共享 rollouts 的多智能體設置，但不包含 HACPO 的創新模塊（Rollout 和參數更新成本都和 HACPO 相同）該工作總結了三類異構，并分別進行了驗證實驗：

主實驗結果
結果分析
該工作在狀態異構、尺寸異構、模型異構三中 setting 下進行了多種實驗，實驗結果表明了 HACPO 的有效性。同時，將 HACPO 的效果歸因為以下兩種機制：
能力驅動的指導：強模型提供更多高質量正確解，幫助弱模型更快提高。互補知識的交換：弱模型作為 “不同探索器” ，會產生強模型較少覆蓋的推理路徑與信息性錯誤，甚至少量強模型未采到的正確解，從而使強模型也獲得可學習的補充信號。狀態異構：
弱模型（Qwen3-4B）提高 7.1% ，強模型（Qwen3-4B-Instruct）提高 1.4% 。模型異構性低，因此主要是強模型幫助弱模型，而弱模型難以對強模型有幫助。

尺寸異構：
大小模型都有提升， Qwen3-1.7B-Base 提升 2.6% ， Qwen3-4B-Base 提升 2.3% 。盡管小模型的準確率低于大模型，其仍然可以為大模型提供一些難以覆蓋到的錯誤路徑和少量正確路徑，提供互補知識。

模型異構：
即使模型異構程度很大，兩個模型也都有提升。 Qwen3-4B-Base 提高 1.9% ， Llama3.2-3B-Instruct 提高 3.9% 。這表明 HACPO 算法的通用性和魯棒性。

效率、效果雙提升：
與等資源基線（GSPO×2）進行對比， HACPO 僅使用一半的 Rollout 成本，就實現了 3.3% 的性能提升。
消融實驗
對于核心算法 HACPO 中的四個模塊進行消融，實驗證明了缺失任何一個模塊都會導致模型性能的下降，表明了四個模塊都是有效的。同時，指數重要性采樣中的最佳指數在不同的模型組合上也會有不同。
討論和展望
本文針對當前智能體強化學習面臨的孤立優化采樣成本高、異構大模型生態知識利用效率低的核心行業痛點，提出了異構智能體協同強化學習（HACRL）全新范式。該范式突破知識蒸餾單向師生傳遞的固有局限，實現了訓練階段異構智能體協同優化、推理階段獨立執行的核心設計。
面向未來， HACRL 范式的拓展方向主要包括以下幾個方面：一是將適用場景從數學推理任務延伸至代碼生成、多模態理解等更廣泛的大模型核心下游任務，以驗證其在通用場景下的普適性；二是探索更大規模的異構智能體協同訓練網絡，深入研究智能體間相互學習的效果邊界與影響機制。此外， HACPO 的提出為跨異構智能體的數據統一復用奠定了初步框架，未來在邁向通用人工智能（AGI）的進程中，構建跨模型、跨領域的統一知識學習平臺同樣是不可或缺的重要方向。
【北航，清華，北大聯合發布：異構智能體協同強化學習！】作者：第一作者為北京航空航天大學本科生張之夏與博士生黃子軒，通訊作者為北京航空航天大學班義琨教授。

推薦閱讀

上一篇：貝佐斯要用AI改造老舊工業？消息稱在尋求設立1000億美元基金

下一篇：雷軍說三年要投AI600億，市場有點慌