人大&通義:IterResearch用40K上下文輕松實現2048輪交互不退化

人大&通義:IterResearch用40K上下文輕松實現2048輪交互不退化

文章圖片

人大&通義:IterResearch用40K上下文輕松實現2048輪交互不退化

文章圖片

人大&通義:IterResearch用40K上下文輕松實現2048輪交互不退化

文章圖片




以 40K 上下文 , 讓 Agent 搜索 2048 輪 , 性能還能一路漲?這幾乎是不可想象的 。


當前主流的 Search Agent 都面臨同一個尷尬:Agent 需要反復搜索網頁、比對線索、驗證假設、回溯修正 , 交互輪次動輒數十上百輪 。 但以 ReAct 為代表的傳統范式 , 把每一輪的思考和工具返回結果不斷追加到同一個上下文窗口中 —— 做得越多 , 上下文越臃腫 , 留給推理的空間越少 , 早期的噪聲和錯誤路徑還被永久「焊死」在記憶里 。


結果就是:Agent 搜得越深入 , 反而「想」得越糊涂 。


能不能讓 Agent 在探索過程中不斷「清理工作臺」 , 始終在一個干凈的空間里思考?


來自中國人民大學與阿里巴巴通義實驗室的研究團隊提出了 IterResearch , 一種全新的迭代式深度研究范式 。


通過馬爾可夫式的工作空間重構 , IterResearch 讓 Agent 在僅 40K 上下文長度下完成了 2048 次工具交互且性能不衰減 , 在 BrowseComp 上從 3.5% 一路攀升至 42.5% 。


目前 , 該論文已被 ICLR 2026 接收 。





  • 論文鏈接:https://arxiv.org/pdf/2511.07327
  • 代碼鏈接:https://github.com/Chen-GX/IterResearch


「堆上下文」為什么難以實現 Interaction Scaling?


在 Search Agent 場景下 , Agent 的工作本質上是一個與外部環境不斷交互的循環 。 傳統 ReAct 范式將這一過程建模為「單上下文堆疊」:每一輪的推理和工具返回被持續追加到同一個上下文窗口中 , 形成線性增長的記憶鏈 。


【人大&通義:IterResearch用40K上下文輕松實現2048輪交互不退化】這種看似自然的設計 , 在長程任務中會引發兩個結構性問題:


  • 其一是上下文窒息(context suffocation):上下文窗口的總容量是有限的 , 歷史信息不斷堆積意味著留給后續推理的「生成預算」被持續壓縮 。 Agent 被迫給出更短、更淺的回答 , 最終滑向草率的結論;
  • 其二是噪聲污染(noise contamination):搜索過程中產生的大量網頁摘要、早期的錯誤路徑和無關線索被永久寫入上下文 , 對后續推理產生級聯干擾 , 信噪比持續走低 。


社區已經意識到了這些問題 , 陸續提出了 context folding、summary 等緩解策略 , 試圖為搖搖欲墜的上下文「續命」 。 但這些方法本質上是在補救 , 并未從根本上改變上下文線性增長的結構 —— 給 Agent 256K 甚至更長的窗口 , 也只是推遲崩潰 , 而非避免崩潰 。


不再「堆疊」 , 而是「重構」:IterResearch 的核心思路


IterResearch 對這一問題的回應不是修修補補 , 而是從范式層面重新思考:與其不斷往上下文里塞東西 , 不如讓 Agent 學會「邊做邊清理」 。





研究團隊將長程研究過程形式化為一個馬爾可夫決策過程(MDP) 。 核心思想是:Agent 不再維護一個不斷膨脹的完整歷史 , 而是通過一個持續進化的「演進式報告」(evolving report)來綜合已有成果、壓縮無關信息、更新推理狀態 。 每一輪推理都在一個被重構過的、恒定復雜度的工作空間中展開 。


具體來說 , Agent 的每一步包含兩個核心動作:


  • 決策階段:Agent 基于當前狀態 , 輸出三部分 —— 思考過程(Think)、更新后的演進報告(Report)和本輪工具調用請求(Action) 。 報告在這里扮演了「壓縮記憶」的角色 , Agent 需要在每一輪主動決定哪些信息值得保留 , 哪些應該被丟棄 。
  • 狀態轉移階段:進入下一輪時 , 完整的歷史軌跡被有意丟棄 , Agent 僅保留更新后的報告、上一輪的工具調用及其返回結果 , 三者共同構成新的推理起點 。


從上下文管理的視角看 , 傳統 ReAct 的狀態空間隨交互輪次 t 線性增長(O (t)) , 而 IterResearch 的工作空間始終保持恒定(O (1)) 。


研究團隊指出 , 這種機制與 RNN/LSTM 中的隱狀態更新有結構上的相似性 —— 都通過一個隱狀態來承載記憶并逐步更新 。 不同之處在于 , IterResearch 的「隱狀態」是一份顯式、可解釋的研究報告 , 既能濃縮歷史 , 又能為下一步推理提供清晰的起點 。





40K 上下文 , 2048 輪交互不退化:Interaction Scaling 的威力


這項工作中最核心的發現 , 就是 Interaction Scaling 特性 —— 給 Agent 更多的交互預算 , 性能就能持續提升 , 而不會像傳統方法那樣因為上下文溢出而崩潰 。





在 BrowseComp 基準上 , 研究團隊將 Agent 的最大交互輪次從 2 逐步放寬到 2048 。 結果顯示 , IterResearch 的準確率從 3.5% 一路攀升到 42.5% , 且在 2048 輪時依然沒有出現明顯的退化跡象 。 而傳統單上下文方法在幾十輪后就已經不堪重負 。


值得強調的是 , 2048 并非 IterResearch 的交互上限 , 而僅是實驗評測范圍的終點 。 模型在 2048 輪時性能曲線仍保持上升趨勢 , 表明該范式在理論上具備進一步擴展的潛力 。


這一結果傳遞了一個重要信號:長程任務的「難」 , 可能并非完全來自模型推理能力不足 , 更有可能是探索深度受限 。 當 Agent 擁有一個干凈的思維空間并被允許充分探索時 , 它確實有能力在超長任務中持續進步 。


另一個有意思的發現是:盡管最大輪次被設置為 2048 , Agent 實際上平均只用了約 80 輪 。 它學會了在獲取足夠信息后主動終止 , 而非機械地耗盡預算 —— 這說明 Agent 不僅學會了「走得遠」 , 還學會了「知道何時?!?。


「即插即用」的推理范式:不訓練也能提升閉源模型


如果僅把 IterResearch 的迭代邏輯作為提示策略(prompting strategy) , 直接應用于閉源模型而不做任何訓練 , 效果會怎樣?


研究團隊在 o3 和 DeepSeek-V3.1 上做了驗證 。 在完全相同的任務設定下 , 相比傳統的 ReAct 提示范式 , IterResearch 在最具挑戰性的 BrowseComp 上分別為 o3 帶來了 12.7 個百分點、為 DeepSeek-V3.1 帶來了 19.2 個百分點的提升 。





這說明 IterResearch 的核心優勢在于結構性的認知機制 , 而非依賴特定數據或微調技巧 。 無論底層模型是什么架構 , 它觸及的都是長程推理中的共性瓶頸 。


總結


IterResearch 提出了一個簡潔而有效的范式轉換:與其不斷修補一個注定會崩潰的線性上下文 , 不如從結構上讓 Agent 學會「邊做邊重構思維」 。


這一思路在訓練框架、提示策略和跨范式遷移三個層面都展現了一致的有效性 , 而其揭示的 Interaction Scaling 特性更是為長程 Agent 的能力邊界打開了新的想象空間 。 在 Agent 走向真正長期、持續運行的未來 , IterResearch 提供了一個值得關注的方向 。


作者介紹


第一作者陳國鑫 , 中國人民大學高瓴人工智能學院博士生 , 導師為趙鑫教授和宋睿華教授 , 研究方向為 LLM 推理與 Agent , 聚焦搜索智能體與代碼智能體 。 曾在阿里巴巴通義實驗室等機構實習 , 在 ICLR、ICML、NeurIPS、ACL 等頂級會議發表多篇論文 。 本工作由中國人民大學與阿里巴巴通義實驗室合作完成 。

    推薦閱讀