多輪Agent訓練遇到級聯失效？熵控制強化學習來破局

2026-01-28 人工智能 ai 創投圈學習方法

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【多輪Agent訓練遇到級聯失效？熵控制強化學習來破局】

文章圖片

作者團隊介紹：本文來自羅格斯大學和 Adobe 團隊的合作，一作徐武將羅格斯二年級博士，研究興趣在 LLM Agent Memory 以及 Agent RL 方向上。師從 Dimitris N. Metaxas 老師，曾任 cvpr general chair 。
在訓練多輪 LLM Agent 時（如需要 30 + 步交互才能完成單個任務的場景），研究者遇到了一個嚴重的訓練不穩定問題：標準的強化學習方法（PPO/GRPO）在稀疏獎勵環境下表現出劇烈的熵值震蕩，導致訓練曲線幾乎不收斂。
研究者發現這是一種獨特的「探索 - 利用級聯失效」（exploration-exploitation cascade failure）現象。具體表現為在早期階段，過度探索導致策略熵值失控上升，但獎勵信號幾乎沒有提升，探索沒有轉化為有效學習；在后期階段，早期的不穩定性傳播到后續步驟，熵值持續高位震蕩，無法形成連貫的決策策略。
為此，研究者提出了 Entropy-regularized Policy Optimization (EPO) 框架，包含三個核心機制：多輪熵正則化、熵平滑正則器和自適應權重。實驗結果上，在 ScienceWorld 環境， PPO+EPO 相比 PPO 最大提升 152%；在 ALFWorld 環境， GRPO+EPO 相比 GRPO 最大提升 19.8% 。同時，觀測訓練的曲線，發現訓練穩定性顯著提高，方差明顯降低。

論文標題: EPO: Entropy-Regularized Policy Optimization for LLM Agents Reinforcement Learning
論文鏈接: https://arxiv.org/pdf/2509.22576
代碼倉庫: https://github.com/WujiangXu/EPO

引言
最近在訓練多輪 LLM Agent 時，研究者遇到了一個令人困擾的現象。在 ScienceWorld 和 ALFWorld 這兩個需要 30 + 步交互的環境中，標準的 PPO 和 GRPO 算法表現出極度不穩定的訓練動態：

熵值瘋狂震蕩：策略熵在訓練過程中劇烈波動，從低熵狀態突然跳到高熵狀態，再突然跌落。
獎勵曲線不動：盡管進行了 100 + 輪訓練，平均獎勵幾乎沒有提升。
訓練無法收斂：不同隨機種子之間的性能差異極大，模型行為不可預測。

更令人困惑的是，這個問題在單輪或短 horizon 任務中并不明顯。同樣的 PPO/GRPO 算法在數學推理、代碼生成等單輪任務上工作良好。這說明多輪稀疏獎勵環境存在某種獨特的失效模式。研究者系統地檢索了相關文獻，發現現有工作主要關注兩個方向：

單輪 LLM 的熵控制（Cui et al. 2025; Dong et al. 2025; Wang et al. 2025a）：這些方法通過修改 advantage 函數或使用 KL 懲罰來防止熵崩潰，但它們假設的是即時反饋場景。
多輪 Agent 的其他挑戰（Zhou et al. 2024; Bai et al. 2024）：已有工作關注分層 RL、信用分配、密集獎勵設計等問題，但沒有系統研究多輪環境下的探索 - 利用動態。

現有的熵控制方法都是為單輪或短 horizon 場景設計的，它們無法解決多輪環境中獨特的「級聯失效」問題。通過詳細的訓練軌跡分析，研究者識別出一種在多輪稀疏獎勵環境中特有的失效模式，研究者稱之為探索 - 利用級聯失效（exploration-exploitation cascade failure）。這個失效過程分為兩個明顯的階段：
階段 1：過度早期探索
由于稀疏和延遲的獎勵信號，標準的熵正則化反而導致失控的熵增長。 Agent 在早期步驟進行盲目探索，而不是有目的的探索。這創造了不穩定的行為基礎，系統性地鎖定到次優的行為模式。
從圖 1 可以看到， PPO 的早期軌跡步驟（粉色虛線）表現出快速、不受控的熵增長，而獎勵保持停滯，說明探索沒有有效轉化為獎勵提升。
階段 2：不確定性傳播
早期步驟的不穩定性會復合傳播到后續步驟。由于多輪環境的時序依賴性，早期的錯誤決策會影響后續所有步驟的狀態分布。累積的不確定性在后期步驟復合，維持危險的高熵水平，阻止連貫策略的形成，進一步降低性能。
同樣從圖 1 可以看到， PPO 的后期軌跡步驟（紅色虛線）維持了高熵震蕩，獎勵曲線 plateau ，盡管持續探索。標準的熵正則化缺乏時序意識。它們只關注瞬時熵值，而忽略了多輪環境中的關鍵事實：早期步驟的決策從根本上塑造了后續步驟的結果。傳統方法無法打破這個級聯循環。

圖 1
方法
研究者提出 Entropy-regularized Policy Optimization (EPO) ，一個專門為打破級聯失效而設計的框架。核心洞察是：將策略熵錨定到動態調整的歷史邊界上，提供了必要的穩定性來阻止級聯失效，同時不犧牲必要的探索。
EPO 包含三個協同機制：
1、多輪熵正則化
研究者改進了熵計算方式，在軌跡內的所有 turns 上計算熵，并在軌跡批次上平均，捕捉 agent 交互的獨特時序結構：

其中 token 級熵為：

2、熵平滑正則器（核心創新）
為了打破級聯失效的兩階段模式（過度早期探索 → 后期不確定性傳播），研究者引入了一個熵平滑機制，防止稀疏獎勵設置中觀察到的危險振蕩。

對每個 token 應用基于可接受熵范圍的懲罰：

其中邊界系數 k_l 和 k_r 定義可接受范圍， α 提供超出期望范圍的 token 的懲罰權重。通過將熵約束在歷史平均值內，研究者既防止了早期階段的盲目探索，也防止了后期階段的混亂不確定性傳播。
聚合所有 tokens、turns 和 trajectories 的懲罰得到平滑損失：

3、自適應平滑權重
研究者開發了一個自適應權重方案，在訓練階段動態平衡探索和利用，直接對抗級聯失效的進展：

完整 EPO 目標函數
完整的熵平滑策略優化損失定義為：

實驗結果
實驗設置
研究者在ScienceWorld 和 ALFWorld 上分別使用Qwen2.5-7B-Instruct 和 Qwen2.5-3B-Instruct 進行實驗。
Evaluation setting 包含 IID 和 OOD 兩個 setting ，指標上包含兩個 success rate：

Succ.*：最大成功率的平均值
Succ.：收斂后的平均性能（更 robust）

對比實驗
EPO 的有效性體現在兩個關鍵維度：量化性能的大幅提升和訓練動態的根本改善。表 1 展示了 EPO 在兩個環境上的突破性表現，特別是在 ScienceWorld IID 任務上， PPO+EPO 相比基線 PPO 實現了 152.1% 的成功率提升，顯著超越了 agent 專用方法 GiGPO 和 RLVMR 。這個巨大提升直接源于 EPO 的熵平滑正則化機制 —— 它成功阻止了 PPO 在多輪交互中因 aggressive 策略更新導致的嚴重熵崩潰。在 ScienceWorld 的稀疏獎勵環境中，維持探索至關重要， EPO 的 stabilization 作用在這里顯得尤為關鍵。

表 1
圖 2 則揭示了 EPO 性能提升背后的深層機制。訓練曲線對比清晰地展示：PPO+EPO 在 ScienceWorld 上達到了約 2x 的訓練獎勵 (15 vs. 8) ，同時保持 smooth 的單調上升軌跡；而 baseline 方法則表現出嚴重的震蕩和不穩定性。更關鍵的是驗證曲線 ——EPO 變體在僅 40 步內就快速收斂到高成功率 (>0.8) ， baseline 即使訓練 100 步也難以突破 0.4 。在 ALFWorld 的 OOD 評估中， baseline 頻繁跌破 0.2 ，而 EPO 變體始終維持在 0.4 以上。這種消除了 premature 收斂和 over-exploration 之間的特征性震蕩的模式，直接驗證了本文熵正則化框架在解決多輪 LLM agent 訓練中探索 - 利用困境的有效性。

圖 2
模型研究
熵正則化的研究
研究者比較了標準方法 PPO+EPO-Base（在整個訓練過程中應用一致的熵正則化）與 PPO+EPO-Decay（采用動態 schedule ，在初始訓練階段分配更高的熵權重以促進探索，在后期階段系統性地減少它以鼓勵利用）。
違反直覺的結果（圖 3）：
decay 策略在所有指標上持續表現不佳：

雖然 decay schedule 成功降低了訓練后期階段的策略熵
但它過早地抑制了每個 episode 的關鍵初始 turns 中的探索
從圖 3 (c) 可以看到，比較前 10 個 tokens（「Early Steps」）與最后 10 個 tokens（「Late Steps」）的平均熵，顯示不足的早期探索將 agents 鎖定到次優策略，即使策略變得更確定性也無法恢復

關鍵 insight：
直接改變損失權重在 LLM agent 場景中失敗，是由于多輪設置中的探索 - 利用級聯失效。與單輪任務不同，多輪環境表現出強時序依賴性，其中早期步驟從根本上塑造后期步驟結果。
decay schedule 觸發：

過度早期階段探索：創建不穩定基礎，系統性地鎖定到次優行為模式。
后期不確定性傳播：累積的不確定性復合，阻止連貫策略形成。

因此，對于復雜的多輪稀疏獎勵任務，在所有軌跡步驟中維持 robust 和一致的探索壓力是避免級聯失效的關鍵，而不是遵循傳統的探索到利用調度。
熵形狀 Advantage 的研究
研究者還比較了 Entropy-smoothed Policy Optimization (EPO) 與 Cheng et al. (2025b) 的 Entropy-based Advantage (EA) 塑形方法。
結果如圖 3 (b)所示：
雖然 PPO+EA 相比基線有改進，但 PPO+EPO 在最終性能和收斂速度上都顯著優越：

PPO+EPO：達到近乎完美的成功率（~1.0）
PPO+EA：plateau 在 0.5-0.6

關鍵差異在于梯度信號和它如何影響底層 LLM 的能力：

此外， EA 的 hard clipping 在 advantage bonus 上可能誘導訓練不穩定性，其近視性質只考慮瞬時熵。
關鍵 insight：
對于 LLM agent RL ，直接修改策略損失可能嚴重損害模型的推理能力 —— 這些能力在預訓練期間未針對 agent 特定任務開發。由于 LLMs 不是在 agent 特定任務上預訓練的， aggressive 熵正則化直接注入到策略損失中會破壞模型的學習表征和推理路徑。
本文的 EPO 方法通過使用具有歷史熵窗口的時間平滑來解決這個問題，它保留 LLM 固有推理能力的同時提供探索指導。這種解耦正則化維持了值信號和預訓練知識的完整性，導致更 robust 和有效的學習而不降低模型的基礎能力。

圖 3
結論
在這項工作中，研究者識別并解決了訓練多輪 LLM agents 在稀疏獎勵環境中的探索 - 利用級聯失效這一基本挑戰。
核心貢獻包括如下：

問題形式化：首次系統性地刻畫了多輪稀疏獎勵環境中獨特的級聯失效現象。
EPO 框架：提出了通過軌跡感知熵計算、熵平滑正則化和自適應相位權重來防止危險熵振蕩的機制。
理論保證：證明了 EPO 保證熵方差單調遞減，并提供嚴格優于標準最大熵 RL 的性能界。
實證驗證：在 ScienceWorld 上實現高達 152% 的性能提升，在 ALFWorld 上實現 19.8% 的提升，將之前不可訓練的場景轉變為平滑收斂的優化問題。

這項工作確立了多輪 LLM agent 訓練需要與傳統 RL 根本不同的熵控制，為開發 effective 的 LLM Agents 訓練方法開辟了新方向。 EPO 是一個通用框架，可以與任何 on-policy 優化方法無縫集成，為未來研究提供了堅實基礎。

推薦閱讀

上一篇：CoreWeave LOTA技術實現對象數據高速全球傳輸

下一篇：Netflix也干了，視頻播客終究還是要靠大佬帶飛