山大、理想汽車和中科院聯合提出新范式:讓Transformer去其糟粕

山大、理想汽車和中科院聯合提出新范式:讓Transformer去其糟粕

文章圖片

山大、理想汽車和中科院聯合提出新范式:讓Transformer去其糟粕

文章圖片

山大、理想汽車和中科院聯合提出新范式:讓Transformer去其糟粕

文章圖片




離線強化學習(Offline RL)的一大難點是:訓練數據固定、質量參差不齊 。 近兩年 , Decision Transformer(DT)等基于 Transformer 的方法因為把決策建模成條件序列生成而受到關注 , 但它們往往把「整條軌跡」作為學習單位:如果一條軌跡的最終回報不高 , 軌跡中間即便出現過有效動作與局部成功 , 也容易被整體低回報「稀釋」 。

針對這一痛點 , 山東大學、中科院、理想汽車與清華大學的研究團隊聯合提出了一種名為 PRGS(Peak-Return Greedy Slicing)的新框架 。

PRGS 的目標是在不改變離線數據來源的前提下 , 從原始軌跡中自動篩選出更有學習價值的子軌跡(sub-trajectories) , 用于訓練 Transformer 型離線 RL 方法 , 并在推理階段進一步避免「糟糕歷史」對當前決策的干擾 。

在 D4RL、BabyAI 等主流榜單上 , PRGS 不僅超越各種基線方法 , 更讓 Transformer 類方法的平均性能提升了 15.8%!

本論文的第一作者徐志偉 , 山東大學通用智能實驗室助理教授 。 于 2024 年在中國科學院自動化研究所獲博士學位 , 研究內容主要為強化學習、多智能體系統與基于大語言模型的 AI Agent 。 曾獲得 2025 年度中國智能體與多智能體系統優秀博士論文提名等榮譽 。

目前 , 該論文已接收于國際計算機頂級會議 ICLR 2026 。 ICLR(International Conference on Learning Representations)是機器學習與表示學習領域的國際頂級會議之一 , 與 NeurIPS、ICML 并列為人工智能方向最具影響力的學術會議 。 本次 ICLR 2026 共有接近 19000 篇有效投稿 , 接收率約為 28% 。



論文標題:Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL 論文鏈接:https://openreview.net/pdf?id=7vpehpWnnY
01 痛點:按「整條軌跡」學習 , 粒度不夠細
在離線 RL 中 , 數據是固定的 , 不能像在線 RL 那樣去不斷試錯 。 現有的 Transformer-based 方法(如 DT) , 本質上是在做條件序列建模 。 它們通常以「最終回報(Final Return)」為條件來生成動作 。

這帶來的問題是顯而易見的:

粒度偏粗: 模型只能看到一條軌跡的整體回報信號 , 難以區分軌跡內部不同時間段的質量差異 。
縫合能力缺失: 由于缺乏局部優化目標 , 模型很難從多個平庸策略中提取出最優片段并組合成新的完美策略 。
雖然也有研究試圖通過重采樣或加權來緩解 , 但大多治標不治本 , 沒有深入到時間步(Timestep)級別去精細化操作 。 而 PRGS 的出現 , 正是為了打破這一僵局 。

02 核心解法:從全局建模到精細化切片
PRGS(Peak-Return Greedy Slicing)可以理解為一個面向 Transformer 離線 RL 的數據處理與推理增強框架 , 包含三部分:回報估計、貪心切片、推理時自適應截斷 。



它的核心邏輯非常像人類的學習過程:回顧過去的經歷 , 哪怕結局是失敗的 , 也要找出其中做得最好的那一段 , 刻在腦子里 。

PRGS 包含三個環環相扣的模塊:

第一步:MMD-based Return Estimator:用分布視角做更「樂觀」的回報估計

PRGS 首先需要回答:在軌跡內部 , 哪些時間段更可能帶來高回報?為此作者引入基于最大均值差異(MMD)的回報估計器 , 用來刻畫狀態-動作對的潛在回報分布 。

不同于傳統的均值預測 , MMD 估計器能預測狀態-動作對的潛在回報分布 。 通過對分布采樣并取 Top-n 均值 , PRGS 獲得了一個樂觀的回報估計值 。 簡單來說就是:它能挖掘出當前狀態下可能達到的最好結果 , 而不是平均結果 。

第二步:Greedy Subtrajectory Slicing:圍繞峰值回報做遞歸切片

在得到每個時間步的「樂觀回報」后 , PRGS 對單條軌跡執行貪心切片:PRGS 會掃描整條軌跡 , 計算每個時間步的「樂觀回報」 。 然后 , 它會找到那個回報最高的點——峰值點(Peak Point) 。

切 。以這個峰值點為界 , 從起點到峰值點的這一段 , 被認定為「高質量子軌跡」 , 直接拿去訓練 Transformer 。
再切 。剩下的部分 , 再重新找峰值 , 繼續切 , 直到切完為止 。
這種遞歸式的貪心策略 , 把長軌跡拆成一組更短、質量更聚焦的子軌跡 , 從而讓 Transformer 在訓練中更頻繁地接觸到「相對高回報」的決策片段 。

第三步:Adaptive History Truncation:推理階段的自適應截斷

PRGS 還考慮了一個實際問題:模型訓練時看到的是「從軌跡中段截取出來的子軌跡」 , 推理時如果始終把所有歷史上下文都喂給模型 , 早期的低質量動作可能會干擾后續決策 。

PRGS 引入了一種自適應歷史截斷機制(AHT):每走一步 , 模型都會評估當前狀態的價值 。 如果發現現在的處境比歷史記錄顯示的更有前途 , 說明之前的歷史已經不僅沒用 , 反而成了累贅 。 這時候 , 模型會果斷失憶 , 丟掉歷史上下文 , 輕裝上陣 。

03 實驗:多場景達到 SOTA表現 , 復雜場景更強
研究團隊在 D4RL(連續控制)、BabyAI(自然語言指令跟隨)以及 AuctionNet(大規模廣告競價)三個截然不同的基準上進行了測試 。

D4RL 場景中表現驚艷

在經典的 MuJoCo 和 AntMaze 任務中 , PRGS 的表現堪稱驚艷 。 特別是在需要極強「縫合能力」的 Maze2D-Large 迷宮任務中 , DT-PRGS 的得分高達 127.5 , 而原始 DT 只有不到 30 分 。



在迷宮任務中的可視化結果也顯示 , 通過 PRGS 提取出的子軌跡 , 精準地覆蓋了通往目標的「黃金路徑」 , 幾乎剔除了所有繞彎路的無效探索 。



真實業務場景的潛力

除了學術榜單 , PRGS 在 AuctionNet(阿里媽媽開源的廣告競價數據集)上也表現出色 。 相比于 BC(行為克?。 ?, 加持了 PRGS 后的 BC 算法在多個周期內實現了顯著的利潤提升 。



04 總結與展望
PRGS 的成功證明了一件事:在離線強化學習中 , 數據不僅要「多」 , 更要「精」 。

【山大、理想汽車和中科院聯合提出新范式:讓Transformer去其糟粕】通過 MMD 估計器、貪心切片和自適應截斷這套組合拳 , PRGS 成功地讓 Transformer 具備了「取其精華 , 去其糟粕」的能力 。 這一成果也為自動駕駛、機器人控制等工業級應用提供了極具價值的技術參考 。

    推薦閱讀