多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

【多輪Agent訓練遇到級聯失效?熵控制強化學習來破局】多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

文章圖片

多輪Agent訓練遇到級聯失效?熵控制強化學習來破局

作者團隊介紹:本文來自羅格斯大學和 Adobe 團隊的合作 , 一作徐武將羅格斯二年級博士 , 研究興趣在 LLM Agent Memory 以及 Agent RL 方向上 。 師從 Dimitris N. Metaxas 老師 , 曾任 cvpr general chair 。
在訓練多輪 LLM Agent 時(如需要 30 + 步交互才能完成單個任務的場景) , 研究者遇到了一個嚴重的訓練不穩定問題:標準的強化學習方法(PPO/GRPO)在稀疏獎勵環境下表現出劇烈的熵值震蕩 , 導致訓練曲線幾乎不收斂 。
研究者發現這是一種獨特的「探索 - 利用級聯失效」(exploration-exploitation cascade failure)現象 。 具體表現為在早期階段 , 過度探索導致策略熵值失控上升 , 但獎勵信號幾乎沒有提升 , 探索沒有轉化為有效學習;在后期階段 , 早期的不穩定性傳播到后續步驟 , 熵值持續高位震蕩 , 無法形成連貫的決策策略 。
為此 , 研究者提出了 Entropy-regularized Policy Optimization (EPO) 框架 , 包含三個核心機制: 多輪熵正則化、熵平滑正則器和自適應權重 。 實驗結果上 , 在 ScienceWorld 環境 , PPO+EPO 相比 PPO 最大提升 152%;在 ALFWorld 環境 , GRPO+EPO 相比 GRPO 最大提升 19.8% 。 同時 , 觀測訓練的曲線 , 發現訓練穩定性顯著提高 , 方差明顯降低 。

  • 論文標題: EPO: Entropy-Regularized Policy Optimization for LLM Agents Reinforcement Learning
  • 論文鏈接: https://arxiv.org/pdf/2509.22576
  • 代碼倉庫: https://github.com/WujiangXu/EPO
引言
最近在訓練多輪 LLM Agent 時 , 研究者遇到了一個令人困擾的現象 。 在 ScienceWorld 和 ALFWorld 這兩個需要 30 + 步交互的環境中 , 標準的 PPO 和 GRPO 算法表現出極度不穩定的訓練動態:
  • 熵值瘋狂震蕩:策略熵在訓練過程中劇烈波動 , 從低熵狀態突然跳到高熵狀態 , 再突然跌落 。
  • 獎勵曲線不動:盡管進行了 100 + 輪訓練 , 平均獎勵幾乎沒有提升 。
  • 訓練無法收斂:不同隨機種子之間的性能差異極大 , 模型行為不可預測 。
更令人困惑的是 , 這個問題在單輪或短 horizon 任務中并不明顯 。 同樣的 PPO/GRPO 算法在數學推理、代碼生成等單輪任務上工作良好 。 這說明多輪稀疏獎勵環境存在某種獨特的失效模式 。 研究者系統地檢索了相關文獻 , 發現現有工作主要關注兩個方向:
  1. 單輪 LLM 的熵控制(Cui et al. 2025; Dong et al. 2025; Wang et al. 2025a):這些方法通過修改 advantage 函數或使用 KL 懲罰來防止熵崩潰 , 但它們假設的是即時反饋場景 。
  2. 多輪 Agent 的其他挑戰(Zhou et al. 2024; Bai et al. 2024):已有工作關注分層 RL、信用分配、密集獎勵設計等問題 , 但沒有系統研究多輪環境下的探索 - 利用動態 。
現有的熵控制方法都是為單輪或短 horizon 場景設計的 , 它們無法解決多輪環境中獨特的「級聯失效」問題 。 通過詳細的訓練軌跡分析 , 研究者識別出一種在多輪稀疏獎勵環境中特有的失效模式 , 研究者稱之為探索 - 利用級聯失效(exploration-exploitation cascade failure) 。 這個失效過程分為兩個明顯的階段:
階段 1:過度早期探索
由于稀疏和延遲的獎勵信號 , 標準的熵正則化反而導致失控的熵增長 。 Agent 在早期步驟進行盲目探索 , 而不是有目的的探索 。 這創造了不穩定的行為基礎 , 系統性地鎖定到次優的行為模式 。
從圖 1 可以看到 , PPO 的早期軌跡步驟(粉色虛線)表現出快速、不受控的熵增長 , 而獎勵保持停滯 , 說明探索沒有有效轉化為獎勵提升 。
階段 2:不確定性傳播
早期步驟的不穩定性會復合傳播到后續步驟 。 由于多輪環境的時序依賴性 , 早期的錯誤決策會影響后續所有步驟的狀態分布 。 累積的不確定性在后期步驟復合 , 維持危險的高熵水平 , 阻止連貫策略的形成 , 進一步降低性能 。
同樣從圖 1 可以看到 , PPO 的后期軌跡步驟(紅色虛線)維持了高熵震蕩 , 獎勵曲線 plateau , 盡管持續探索 。 標準的熵正則化缺乏時序意識 。 它們只關注瞬時熵值 , 而忽略了多輪環境中的關鍵事實: 早期步驟的決策從根本上塑造了后續步驟的結果。 傳統方法無法打破這個級聯循環 。

圖 1
方法
研究者提出 Entropy-regularized Policy Optimization (EPO) , 一個專門為打破級聯失效而設計的框架 。 核心洞察是:將策略熵錨定到動態調整的歷史邊界上 , 提供了必要的穩定性來阻止級聯失效 , 同時不犧牲必要的探索 。
EPO 包含三個協同機制:
1、多輪熵正則化
研究者改進了熵計算方式 , 在軌跡內的所有 turns 上計算熵 , 并在軌跡批次上平均 , 捕捉 agent 交互的獨特時序結構:

其中 token 級熵為:

2、熵平滑正則器(核心創新)
為了打破級聯失效的兩階段模式(過度早期探索 → 后期不確定性傳播) , 研究者引入了一個熵平滑機制 , 防止稀疏獎勵設置中觀察到的危險振蕩 。

對每個 token 應用基于可接受熵范圍的懲罰:

其中邊界系數 k_l 和 k_r 定義可接受范圍 , α 提供超出期望范圍的 token 的懲罰權重 。 通過將熵約束在歷史平均值內 , 研究者既防止了早期階段的盲目探索 , 也防止了后期階段的混亂不確定性傳播 。
聚合所有 tokens、turns 和 trajectories 的懲罰得到平滑損失:

3、自適應平滑權重
研究者開發了一個自適應權重方案 , 在訓練階段動態平衡探索和利用 , 直接對抗級聯失效的進展:


完整 EPO 目標函數
完整的熵平滑策略優化損失定義為:

實驗結果
實驗設置
研究者在ScienceWorld 和 ALFWorld 上分別使用Qwen2.5-7B-Instruct 和 Qwen2.5-3B-Instruct 進行實驗 。
Evaluation setting 包含 IID 和 OOD 兩個 setting , 指標上包含兩個 success rate:
  • Succ.*:最大成功率的平均值
  • Succ.:收斂后的平均性能(更 robust)
對比實驗
EPO 的有效性體現在兩個關鍵維度:量化性能的大幅提升和訓練動態的根本改善 。 表 1 展示了 EPO 在兩個環境上的突破性表現 , 特別是在 ScienceWorld IID 任務上 , PPO+EPO 相比基線 PPO 實現了 152.1% 的成功率提升 , 顯著超越了 agent 專用方法 GiGPO 和 RLVMR 。 這個巨大提升直接源于 EPO 的熵平滑正則化機制 —— 它成功阻止了 PPO 在多輪交互中因 aggressive 策略更新導致的嚴重熵崩潰 。 在 ScienceWorld 的稀疏獎勵環境中 , 維持探索至關重要 , EPO 的 stabilization 作用在這里顯得尤為關鍵 。

表 1
圖 2 則揭示了 EPO 性能提升背后的深層機制 。 訓練曲線對比清晰地展示:PPO+EPO 在 ScienceWorld 上達到了約 2x 的訓練獎勵 (15 vs. 8) , 同時保持 smooth 的單調上升軌跡;而 baseline 方法則表現出嚴重的震蕩和不穩定性 。 更關鍵的是驗證曲線 ——EPO 變體在僅 40 步內就快速收斂到高成功率 (>0.8) , baseline 即使訓練 100 步也難以突破 0.4 。 在 ALFWorld 的 OOD 評估中 , baseline 頻繁跌破 0.2 , 而 EPO 變體始終維持在 0.4 以上 。 這種消除了 premature 收斂和 over-exploration 之間的特征性震蕩的模式 , 直接驗證了本文熵正則化框架在解決多輪 LLM agent 訓練中探索 - 利用困境的有效性 。

圖 2
模型研究
熵正則化的研究
研究者比較了標準方法 PPO+EPO-Base(在整個訓練過程中應用一致的熵正則化)與 PPO+EPO-Decay(采用動態 schedule , 在初始訓練階段分配更高的熵權重以促進探索 , 在后期階段系統性地減少它以鼓勵利用) 。
違反直覺的結果(圖 3):
decay 策略在所有指標上持續表現不佳:
  • 雖然 decay schedule 成功降低了訓練后期階段的策略熵
  • 但它過早地抑制了每個 episode 的關鍵初始 turns 中的探索
  • 從圖 3 (c) 可以看到 , 比較前 10 個 tokens(「Early Steps」)與最后 10 個 tokens(「Late Steps」)的平均熵 , 顯示不足的早期探索將 agents 鎖定到次優策略 , 即使策略變得更確定性也無法恢復
關鍵 insight:
直接改變損失權重在 LLM agent 場景中失敗 , 是由于多輪設置中的探索 - 利用級聯失效 。 與單輪任務不同 , 多輪環境表現出強時序依賴性 , 其中早期步驟從根本上塑造后期步驟結果 。
decay schedule 觸發:
  1. 過度早期階段探索:創建不穩定基礎 , 系統性地鎖定到次優行為模式 。
  2. 后期不確定性傳播:累積的不確定性復合 , 阻止連貫策略形成 。
因此 , 對于復雜的多輪稀疏獎勵任務 , 在所有軌跡步驟中維持 robust 和一致的探索壓力是避免級聯失效的關鍵 , 而不是遵循傳統的探索到利用調度 。
熵形狀 Advantage 的研究
研究者還比較了 Entropy-smoothed Policy Optimization (EPO) 與 Cheng et al. (2025b) 的 Entropy-based Advantage (EA) 塑形方法 。
結果如圖 3 (b)所示:
雖然 PPO+EA 相比基線有改進 , 但 PPO+EPO 在最終性能和收斂速度上都顯著優越:
  • PPO+EPO:達到近乎完美的成功率(~1.0)
  • PPO+EA:plateau 在 0.5-0.6
關鍵差異在于梯度信號和它如何影響底層 LLM 的能力:

此外 , EA 的 hard clipping 在 advantage bonus 上可能誘導訓練不穩定性 , 其近視性質只考慮瞬時熵 。
關鍵 insight:
對于 LLM agent RL , 直接修改策略損失可能嚴重損害模型的推理能力 —— 這些能力在預訓練期間未針對 agent 特定任務開發 。 由于 LLMs 不是在 agent 特定任務上預訓練的 , aggressive 熵正則化直接注入到策略損失中會破壞模型的學習表征和推理路徑 。
本文的 EPO 方法通過使用具有歷史熵窗口的時間平滑來解決這個問題 , 它保留 LLM 固有推理能力的同時提供探索指導 。 這種解耦正則化維持了值信號和預訓練知識的完整性 , 導致更 robust 和有效的學習而不降低模型的基礎能力 。

圖 3
結論
在這項工作中 , 研究者識別并解決了訓練多輪 LLM agents 在稀疏獎勵環境中的探索 - 利用級聯失效這一基本挑戰 。
核心貢獻包括如下 :
  1. 問題形式化:首次系統性地刻畫了多輪稀疏獎勵環境中獨特的級聯失效現象 。
  2. EPO 框架:提出了通過軌跡感知熵計算、熵平滑正則化和自適應相位權重來防止危險熵振蕩的機制 。
  3. 理論保證:證明了 EPO 保證熵方差單調遞減 , 并提供嚴格優于標準最大熵 RL 的性能界 。
  4. 實證驗證:在 ScienceWorld 上實現高達 152% 的性能提升 , 在 ALFWorld 上實現 19.8% 的提升 , 將之前不可訓練的場景轉變為平滑收斂的優化問題 。
這項工作確立了多輪 LLM agent 訓練需要與傳統 RL 根本不同的熵控制 , 為開發 effective 的 LLM Agents 訓練方法開辟了新方向 。 EPO 是一個通用框架 , 可以與任何 on-policy 優化方法無縫集成 , 為未來研究提供了堅實基礎 。

    推薦閱讀