剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人

文章圖片

編輯:艾倫
【新智元導讀】風雨飄搖中的Meta , 于昨天發布了一篇重量級論文 , 提出了一種被稱作「早期經驗」(Early Experience)的全新范式 , 讓AI智能體「無師自通」 , 為突破強化學習瓶頸提供了一種新思路 。


Meta自從Alexandr Wang加入后混亂不堪 , 人心惶惶 , Yann LeCun也公開表達出走意愿 。
但就在昨天 , 他們發了一篇大論文《Agent Learning via Early Experience》 , 提出了一種被稱作「早期經驗」(Early Experience)的全新范式 , 讓AI智能體「無師自通」 , 為突破強化學習瓶頸提供了一種新思路 。

https://arxiv.org/abs/2510.08558
論文作者絕大多數都是華人 。 默默做事的 , 永遠是華人 。

研究背景與問題
【剛剛,Meta風雨飄搖中發了篇重量級論文,作者幾乎全是華人】在現實場景中訓練語言智能體常常面臨一個兩難困境:
強化學習需要明確的環境獎勵信號 , 但許多真實環境缺乏可驗證的獎勵反饋 , 或者任務跨度很長導致信用分配(credit assignment)困難;
而模仿學習(通常采取監督微調)則依賴昂貴且有限的專家演示數據 , 模型在訓練中無法與環境交互 , 因而難以從失敗中學習 , 遇到新情況時泛化能力差 。
要么沒有獎勵信號指導學習 , 要么只有少量人類示范可供模仿 , 智能體的自主成長因此受限 。
目前大多數語言智能體采取監督微調的范式:在靜態的專家軌跡數據上訓練策略 , 將環境狀態映射到人類給定的動作序列 。
這種方法雖然訓練方便 , 卻存在明顯局限:智能體訓練時不與環境互動 , 看不到自己動作導致的結果 , 無法「知錯就改」 , 也很難推廣到訓練數據覆蓋不到的新情境 。
此外 , 高質量專家示范數據獲取成本高昂 , 難以大規模擴充 。
另一方面 , 理想情況下我們希望讓智能體像人一樣通過自身經驗不斷成長 , 但是傳統強化學習在缺少獎勵的環境中難以奏效 。
面對缺乏獎勵信號且示范數據有限的困境 , 我們亟需新的訓練范式來讓智能體完成自主學習 。

方法框架:「早期經驗范式」
針對上述難題 , 該論文提出了一種折中的新范式 , 稱為「早期經驗」(Early Experience) 。
這一范式定位于模仿學習和強化學習之間的中間地帶:智能體在訓練過程中不再僅依賴人類示范數據 , 還引入自身動作所產生的后續狀態作為訓練信號 。
該范式是讓智能體在沒有外部獎勵的情況下 , 通過嘗試動作->觀察結果->將結果轉化為監督 , 來直接從自己行為的后果中獲取經驗教訓 。
這一過程無需環境提供獎勵 , 利用的完全是智能體探索所產生的數據 , 可視作在人工演示(無獎勵但數據有限)和強化學習(有獎勵但探索困難)之間架起的一座橋梁 。
論文具體探討了在「早期經驗」范式下的兩種核心訓練策略:

  • 隱式世界建模(Implicit World Modeling IWM):該策略讓智能體利用收集到的環境狀態序列來建立內部的環境動態模型 。
  • 做法是讓智能體在一些決策點嘗試由其策略自主提出的替代動作 , 然后記錄執行這些動作后環境的狀態變化 , 將這些「未來狀態」作為額外訓練信號 。
  • 通過學習預測動作將帶來怎樣的狀態轉變 , 智能體逐漸內化環境的因果規律 , 提升對環境動態的理解和決策的穩健性 。
  • 這種隱式建模有點類似于人類在腦海中模擬「如果我這么做 , 會發生什么」 , 從而讓策略對行動后果有所預見 。
  • 自我反思(Self-Reflection SR):該策略旨在讓智能體從自身不理想的決策中總結經驗教訓 。
  • 智能體會將自己的動作與專家示范進行對比 , 識別哪些決策是次優的或錯誤的 , 并為此生成一段反思性的思維鏈說明 , 即一個自我分析的內在獨白 。
  • 這些由智能體生成的反思性解釋將作為訓練數據的一部分 , 指導模型在相似情境下做出更優選擇 。
  • 例如 , 在購物網站任務中 , 如果智能體原本選擇了一個超出預算的商品 , 一個可能的自我反思是:
  • 「這個紅色襯衫雖然符合顏色偏好 , 但價格超出預算 , 上述選擇不合理 , 應該考慮價格更低的藍襯衫 。 」
  • 這樣 , 智能體通過反思約束條件 , 理解了自己決策的不足 。
  • 在訓練中 , 研究者將這些反思解說與正確動作一起加入訓練 , 使模型學會根據上下文進行推理并修正決策 。
  • 自我反思策略相當于給予智能體一個自我導師:讓它自己說明哪里做錯了 , 以及正確的思路是什么 , 從而內化細粒度的經驗教訓 。

這兩種策略都遵循同一原則:即使沒有外部獎勵 , 智能體「自我探索」所產生的動作-結果數據本身就能提供高質量的監督信號 。
通過將自身行為引起的未來狀態轉換成學習信號 , 語言智能體無需額外的人類獎勵標注也可以不斷改進 。
早期經驗范式可以無縫集成到現有訓練流程中:先用少量專家數據進行基本模仿學習初始化策略 , 然后讓智能體展開受控的探索(產生「早期經驗」數據) , 再用上述隱式世界建模和自我反思策略提取的監督信號對策略進行強化訓練 。
這一過程實現了從「人教模型」向「模型自學」的轉變 。

實驗驗證:八大環境的評估表現
作者在八個多樣化環境中對早期經驗范式進行了全面評估 , 涵蓋實體導航、網頁瀏覽、多輪工具使用、長序列規劃以及多領域API調用等任務類型 。
這些環境包括例如:文本版的室內導航和操作(如ALFWorld)、在線購物網頁(WebShop)、科學實驗模擬環境(ScienceWorld)、旅行規劃對話任務(TravelPlanner)等等 , 既有需要在虛擬空間中行動的執行型任務 , 也有需要多步推理規劃的認知型任務 。
同時 , 模型基座涵蓋了不同規模和架構的大語言模型(如不同參數規模的Llama系模型等) , 以測試方法對模型尺寸的適應性 。
實驗結果顯示 , 引入「早期經驗」后的智能體表現顯著優于純模仿學習基線 。

在所有測試環境中 , 無論采用隱式世界建模還是自我反思 , 兩種方法都取得了一致的提升:任務成功率平均提升了約9.6個百分點 , 遷移到域外新情境的泛化成功率提升約9.4個百分點 。
這表明早期經驗范式不僅提高了智能體在已知任務上的效率 , 還大幅增強了其應對未知場景的泛化能力 。
例如 , 在要求滿足多重約束的長鏈推理任務中(如旅行規劃需要兼顧時間與預算) , 自我反思策略帶來了超過10個百分點的成功率躍升 , 體現出對復雜推理任務的特別優勢 。
而在需要與環境反復交互嘗試的任務中(如網頁購物需要點擊不同頁面) , 隱式世界建模有效讓智能體掌握了環境狀態轉移規律 , 也取得了兩位數的成功率提升 。
此外 , 作者還考察了該范式的數據效率和模型可擴展性:令人驚喜的是 , 即使將專家演示數據量減少一半 , 引入早期經驗訓練后模型仍能達到甚至超過使用全部專家數據時的性能 。
這說明早期經驗提供了額外且多樣的訓練信號 , 可以在一定程度上替代昂貴的人工示范數據 , 提高數據利用效率 。
同時 , 將這一方法應用到更大規模的模型上 , 同樣取得了穩定增益——早期經驗范式在不同模型大小上效果保持一致 , 不存在隨模型變大而效果遞減的問題 。
這表明該方法具有良好的橫向與縱向可擴展性:既能拓展到更廣的任務領域 , 又能適用于更強大的模型 。
另一個關鍵實驗是驗證早期經驗作為強化學習的預熱(warm-start)是否能夠進一步提升最終表現 。
作者在其中3個具有明確獎勵的環境中先用模仿學習、隱式世界建模、自我反思分別訓練初始策略 , 然后再在相同條件下繼續進行強化學習微調 。
結果發現:以早期經驗(隱式世界建模或自我反思)初始化的策略經過強化學習優化后達到了最高的最終成功率 , 相比直接用模仿學習初始化的策略最終成功率最高提升了約6.4個百分點 。

這說明 , 早期經驗階段帶來的性能增益可以持續到最終的強化學習訓練成果中 。
一些環境中 , 早期經驗組與普通組的差距在強化學習過程中甚至進一步拉大(例如ALFWorld環境) , 證明早期經驗為后續強化學習提供了更高的上限起點 。
在有獎勵和無獎勵場景下 , 早期經驗訓練都展示出優異表現 , 架起了一座從模仿學習通向完全自主強化學習的實踐之橋 。

分析與亮點
通讀論文后 , 我們認為該論文有一些顯著的亮點 。
無獎勵下的高質量監督信號
早期經驗范式的最大亮點在于即便沒有環境獎勵 , 也能為智能體提供有效的學習信號 。
傳統強化學習需要獎勵來評價行為好壞 , 而早期經驗通過「自身行為的后果」來指導策略改進 。
智能體探索產生的未來狀態本身就是監督——成功也好 , 失誤也罷 , 這些經驗片段都成為訓練素材 。
例如 , 隱式世界建模讓模型直接預測環境響應 , 自我反思讓模型檢討錯誤決策的原因 , 兩者都為智能體提供了稠密而豐富的反?。 吶掄庵址蠢〔灰允到崩氏鄭?。
實驗已經證明 , 這種沒有顯式獎勵的監督信號依然可以將模型性能推向新的高度 。
相比之下 , 單純依賴專家示范的監督信號是靜態且狹窄的 , 而早期經驗信號來自智能體主動探索 , 覆蓋了更廣的狀態-動作空間 , 這正是其泛化能力大幅提升的原因之一 。

泛化能力與可擴展性
由于引入了智能體自己探索得到的大量多樣化軌跡 , 模型不再局限于人類示范所涵蓋的有限情景 , 從而在未知環境下表現更穩健 。
作者的域外測試顯示 , 早期經驗訓練的智能體在任務變種或新場景中的成功率遠超僅有模仿學習的基線 , 證明了其跨域遷移能力 。
此外 , 從可擴展性看 , 早期經驗范式具有良好的數據與模型擴展效果:
它可以利用相同環境 , 讓智能體反復生成海量的訓練數據(因為不需要人工標注獎勵) , 大幅降低了對人工數據的依賴;
同時無論模型參數規模增加還是減小 , 方法的收益都基本保持 , 展示出跨模型規模的一致性 。

這一點非常關鍵 , 因為很多方法在小模型上有效但擴展到大模型時效果不明顯 , 而早期經驗方法在不同規模的模型上都取得了顯著而穩定的提升 。
早期經驗不僅拓寬了智能體「見過」的世界 , 也為大模型時代的持續改進提供了一種數據可伸縮的方案 。

對比其他方法(STaR、長鏈推理等)
早期經驗范式與現有一些讓模型自我提升的思路有所不同 , 提供了更具「現實檢驗」的學習信號 。
例如 , Zelikman等人提出的STaR(Self-Taught Reasoner , 自學推理器)方法讓模型為已有示范生成推理過程并自我過濾 。
但這種方法面對復雜環境時遇到兩個問題:
  • 模型產生的解說未經過環境驗證 , 可能并不正確;
  • 為保證動作正確性常需要丟棄大量不匹配專家的解說數據 , 導致可用訓練樣本很少 。
作者在文中復現了STaR風格的數據生成 , 發現模型為專家動作生成的推理鏈中 , 只有極少比例能匹配專家決策 , 篩選后幾乎沒剩下多少有用數據 , 而且這些推理因為從未真正與環境交互 , 往往是假想的、不可靠的 。

相比之下 , 早期經驗方法中智能體每一次生成的動作和反思都直接基于實際環境反?。 翰宦凼且澆;袢〉淖刺?, 還是自我反思產生的教訓 , 都源自真實行動的結果 , 因而信息含量更高、指導性更強 。
針對需要長鏈推理的任務 , 簡單地讓模型生成更長的思考鏈(例如調優提示詞或控制思考步數)只能帶來有限的改善 , 而早期經驗中的自我反思相當于讓模型親身實踐再反思 , 其對于復雜推理任務的提升要顯著得多 。
在作者的實驗中 , 自我反思策略在需要多步規劃和約束滿足的任務上取得了最大的增益(如旅行規劃任務成功率提高十多個百分點) , 這也從側面證明了相比靜態的CoT方法 , 讓模型「做過再想」效果更加突出 。


方法適用范圍
早期經驗范式的一大優點在于其通用性 。
論文結果表明 , 無論是具身環境(如機器人操作)還是數字環境(如網頁、API交互) , 無論任務需要感知行動還是邏輯推理 , 該方法都能帶來一致收益 。
這說明將「自己探索」融入訓練的思路具有很強的普適性 , 不局限于某一類任務 。
同時 , 隱式世界建模和自我反思兩種策略各有側重又能相輔相成:
隱式世界建模更側重環境動力學 , 適用于需要試錯探索的場景;
自我反思側重策略優化和約束滿足 , 對多步驟推理任務幫助更大 。
兩者共享早期經驗的框架 , 可以根據任務特點選擇使用 , 從而靈活地提高智能體性能 。

總結
《Agent Learning via Early Experience》提出了一種創新的語言智能體訓練范式 , 成功彌合了模仿學習和強化學習之間的鴻溝 。

主要貢獻
  • 早期經驗范式的提出:
  • 正式提出并定義了「早期經驗」這一訓練新范式 , 為在無外部獎勵信號的條件下讓智能體從自身經驗中學習提供了可行方案 。
  • 這一范式可被視為從依賴人類數據的模仿學習邁向完全自主強化學習的實用且可擴展的橋梁 。
  • 兩大訓練策略(隱式世界建模和自我反思):
  • 設計并系統研究了在早期經驗范式下的兩種具體策略:
  • 一是通過隱式世界建模讓智能體學會預測環境變化 , 從而增強決策的環境扎根性;
  • 二是通過自我反思促使智能體從自身行動中提煉細粒度教訓 , 提升推理和決策能力 。
  • 這兩種策略證明了即使沒有獎勵 , 智能體也能將「探索-反饋」循環轉化為有效學習信號 。
  • 實驗與效果:
  • 在八個多樣環境和多種模型架構上進行了綜合評測 , 結果顯示早期經驗方法在任務成功率、跨域泛化以及后續強化學習表現等方面均有顯著提升 。
  • 在若干基準上 , 該方法取得了SOTA , 并通過消融和分析實驗提供了有益的洞察 。
  • 例如 , 早期經驗模型以更少的數據達到甚至超過基線效果 , 且能提升最終的強化學習訓練上限 。

當前方法的局限與未來方向
  • 目前的隱式建模和自我反思主要著眼于短跨度的經驗片段 , 對于那些超長序列規劃任務中的信用分配問題 , 如果沒有顯式獎勵仍然是一個挑戰 。
  • 未來的研究可以探索如何讓早期經驗范式也能處理更長鏈條的決策優化 。
  • 結合自監督目標是一個有前景的方向——可以考慮引入豐富的自監督學習信號(如預測下一個子目標等) , 進一步提升無獎勵環境下的訓練效果 。
  • 將早期經驗與強化學習在持續學習框架下結合 , 也是作者設想的方向之一 。
  • 例如 , 在有了環境獎勵后 , 讓模型接著用RL微調 , 或在訓練過程中逐步引入獎勵信號 , 檢驗兩者的協同作用 。
  • 還可以探索更多形式的早期經驗(不限于論文提出的兩種) , 比如不同的自我監督策略 , 乃至讓智能體自己生成新的訓練目標等 。
  • 作者也提到希望將該范式拓展到更大規模的真實應用中 , 在真實線上環境中持續收集智能體的交互數據 , 進行有機的持續優化 。
  • 這將是真正邁向「經驗時代」的一步——讓智能體在真實世界中邊運行邊成長 。
Early Experience為訓練更自主、更智能的語言代理打開了一扇新的大門 。
在獎勵稀缺甚至缺失的廣闊應用場景下 , 它提供了一種高效利用自身經驗的學習機制 。
隨著這一范式與強化學習、自監督等方法的融合 , 以及在長期規劃任務上的突破 , 我們有理由期待下一代智能體將能夠更充分地自我進化 , 朝著真正的通用智能體邁進 。
顯然 , 屬于AI智能體的「早期經驗」時代或許才剛剛開始 。
目前的這些成果可能是幾個月甚至更久之前就在進行的 , 而Meta的新時代能否保持住這種學術產出質量 , 仍有待觀察 。

    推薦閱讀