全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

文章圖片

全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

文章圖片

全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

文章圖片

全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

文章圖片

全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

文章圖片

編輯:LRST
【新智元導讀】斯坦福和MIT的研究團隊推出了一種新的AI智能體推理框架ReCAP , 在長上下文任務中全面超越了現有的主流框架ReAct , 性能提升顯著 。 ReCAP通過獨特的遞歸樹結構和三大機制 , 解決了大語言模型在復雜任務中常見的目標漂移、上下文斷層和成本爆炸等問題 。 在多項基準測試中 , ReCAP均取得了大幅領先的成績 , 展現出強大的通用性和穩定性 。 盡管計算成本略有增加 , 但其在關鍵任務中的表現使其成為極具潛力的新一代通用推理架構 。
自2022年ReAct框架提出以來 , AI智能體推理領域便進入了百家爭鳴的時代 , 各種復雜架構如雨后春筍般涌現 。
然而 , 這些架構大多曇花一現 , 因其復雜的結構導致在更換評測基準時需要大幅修改示例 , 表現遠不如ReAct穩定泛用 , 這也使得ReAct在過去三年中 , 成為了該領域事實上的主流與標桿 。
但是 , 我們真的不能再做得更好了嗎?
面對大模型在長上下文任務中走幾步就忘的短期記憶頑疾 , 業界是否只能止步于此?
【全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%】來自斯坦福大學與MIT的研究團隊給出了肯定答案 , 正式發布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規劃) , 從真正意義上統一了序列推理和層級推理 , 在多種任務中全面戰勝了ReAct , 且繼承了ReAct示例簡單、高通用性 , 和即插即用的優勢 。

論文鏈接:https://arxiv.org/pdf/2510.23822
在嚴格遵循 pass@1(一次通過)的評測原則下 , ReCAP在長序列具身任務Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升 。



長上下文任務的三大「死穴」


團隊指出 , 當今大語言模型在執行復雜任務時普遍有三種問題:

  • 目標漂移(Goal Drift):執行幾步后就逐漸忽略了原本的目標 , 使得執行結果與期望不符 。
  • 上下文斷層(Context Loss):高層的規劃信息在長序列執行中丟失 , 導致高層思考與低層執行不協調 。
  • 成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞 , 推理成本指數增長 。

簡單說 , LLM就像一個短期記憶型天才 , 而主流推理框架各有局限:
  • 序列推理(例如Chain of Thoughts , ReAct)雖然上下文連貫 , 但常常因為任務太長導致目標漂移;
  • 層級推理(例如ADaPT , THREAD)將任務分解為子任務來明確目標 , 但給子任務單獨分配上下文示例和提示詞 , 導致上下文斷層和成本爆炸 。



ReCAP
讓序列推理和層級推理有機結合

ReCAP的核心在于將一個有記憶、有反饋的遞歸樹結構作為模型的工作記憶區 , 其三大機制環環相扣:
  • 計劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個完整的子任務列表 , 但只執行第一個子任務 , 完成后再動態優化后續計劃 。
  • 結構化父任務再注入(Consistent Multi-level Context and Structured Injection):整個執行流程只有一個上下文 , 由所有任務共享 。 每次子任務遞歸返回時 , 父任務會將自身的思考和計劃再次注入上下文 , 使父任務在重新計劃時可以參考上次的思維和執行結果 , 規劃出能真正達成任務目標的底層操作 。
  • 滑動窗口記憶(Sliding Window and Scalable Memory Efficiency):通過滑動窗口機制 , 在統一上下文中只保留最新關鍵歷史 , 實現了內存占用可控的深度遞歸 , 從根本上杜絕了成本爆炸 。



實驗結果
長上下文任務性能大幅躍升

團隊在多個典型長上下文推理基準上驗證了ReCAP的效果 。 結果令人矚目:
  • 在Robotouille(同步)上取得70%成功率 , 較ReAct(38%)提升84.2%
  • 在Robotouille(異步)上取得53%成功率 , 較ReAct(24%)提升112.5%
  • 在ALFWorld上取得91%成功率 , 穩定優于ReAct(84%)
  • 在SWE-bench Verified取得44.8%的成功率 , 優于ReAct基線(39.58%)
值得注意的是 , 團隊在實驗中始終秉持pass@1的實驗原則 , 即不使用樣本層面的重試、多數投票或者束搜索 。 這意味著ReCAP能在真實多步環境中 , 更好地保持目標一致性與執行連貫性——不僅「想得對」 , 還能「做得穩」 。
ReCAP是除ReAct之外 , 又一個能夠在具身推理、以及代碼編輯這兩種截然不同的任務上都取得穩健表現的通用推理架構 。
論文中排除了THREAD、Reflexion等其他基線 , 因其在實驗設置中難以穩定復現或與 pass@1 協議不兼容 , 這進一步凸顯了ReCAP作為新一代通用推理基線的潛力 。



優勢與成本的權衡
任何強大的能力都伴隨著成本 。 團隊對此進行了透明分析:ReCAP的總計算成本約為ReAct的三倍 。 這主要來自于其核心的計劃前瞻分解機制所額外需要的LLM調用 。
然而 , 考慮到其在關鍵任務上帶來的性能巨幅提升與目標一致性 , 這種成本的增加在對準確性要求高的實際應用中是可以接受的 。 這為開發者提供了一個清晰的性價比權衡選項 。



遞歸 , 是通往通用智能的鑰匙?
從人類思維到圖靈機 , 遞歸始終是智能的底層邏輯 。 ReCAP的提出 , 可視為AI邁向通用推理系統的關鍵一步 。
其潛力遠不止于論文所驗證的任務范疇 。 任何依賴復雜決策回路與長期上下文記憶的大型任務 , 都是ReCAP的理想應用場景 。
例如在深度研究中自主遍歷文獻、整合多源信息并生成洞察報告;或在復雜軟件工程中管理龐大代碼庫與依賴關系 , 推進需多步驗證的系統項目 。
長遠來看 , ReCAP的遞歸規劃能力可以與空間智能相結合 , 解決更為復雜的現實世界問題 。 李飛飛教授近日指出 , 空間智能——即理解、推理并與三維世界交互的能力 , 是AI的下一個前沿 。
ReCAP可以為具身智能機器人規劃復雜的長期任務序列 , 而空間智能模型則負責處理實時感知與動作控制 , 二者結合實現機器人在動態環境中的自主規劃與可靠執行 。
隨著代碼的開源 , 一個更擅長長期規劃、穩健執行的AI時代或許即將到來 。



作者介紹
共同一作 Zhenyu Zhang Tianyi Chen Weiran Xu 均為斯坦福大學工程學院計算機系碩士研究生
Alex Pentland教授 , 麻省理工學院媒體實驗室 創始人之一 , 美國國家工程院院士 , Toshiba Professor at MIT , 斯坦福大學 HAI Fellow 。
Jiaxin Pei博士 , 斯坦福大學博士后研究員 , 研究興趣集中在大語言模型、人機交互、Agentic AI , 即將前往得克薩斯大學奧斯汀分校任教 。
參考資料:
https://arxiv.org/pdf/2510.23822

    推薦閱讀