微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

2026-04-07 microsoft 微軟 github

文章圖片

文章圖片

想象一下，你讓 AI 助手結合搜索工具探索一個復雜問題。它第一次探索時走錯了方向，但第二次、第三次，它依然重復同樣的錯誤探索路徑。雖然你可能可以從最終得到的多次探索結果中挑選出一個勉強滿意的答案，但是這既低效，也需要人工干預。這就是當前大多數深度搜索智能體面臨的困境——它們無法「記住」之前的探索經驗，每次都是從頭開始，導致大量冗余搜索和資源浪費。

現有的深度搜索智能體大多基于 ReAct 框架構建，采用線性推理方式：「思考→調用工具→觀察→再思考」。這種設計在簡單任務上表現良好，但在需要多輪探索的深度搜索任務中，往往陷入局部最優、重復探索和低效搜索的困境。

來自東南大學、微軟亞洲研究院等機構的研究團隊提出了一種全新的解決方案——Re-TRAC（REcursive TRAjectory Compression），這個框架讓 AI 智能體能夠「記住」每次探索的經驗，在多個探索軌跡之間傳遞經驗，實現漸進式的智能搜索。

論文標題： RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents 論文鏈接：https://arxiv.org/abs/2602.02486 項目鏈接：https://github.com/microsoft/InfoAgent
讓探索變成「漸進式學習」過程
為什么 ReAct 會失??？

ReAct 框架的核心問題在于其線性設計。每個探索軌跡都是獨立的，模型無法回顧先前嘗試的狀態。在長上下文場景下，早期制定的計劃逐漸被遺忘，關鍵線索被埋沒。

研究團隊通過深入分析發現，現有深度搜索模型即使經過大量強化學習訓練，其 Pass@K 性能仍遠高于 Pass@1 。這意味著模型本身具備解決問題的推理能力潛能，問題在于受限于上下文長度限制，單次探索難以生成足夠多樣的探索路徑，無法覆蓋足夠寬廣的搜索空間。

Re-TRAC：遞歸式軌跡壓縮
Re-TRAC 的核心思想是將探索從一系列獨立嘗試轉變為漸進式學習過程。具體而言，在每個探索軌跡結束時生成一個結構化的狀態表示，針對深度搜索任務，記錄以下三個維度的信息：

答案與分析結論：當前可能性最高的答案與其關鍵推理結果——為后續推理提供錨點。
證據庫與來源驗證：已搜集到的證據及其來源，并標記哪些已被查閱、已被驗證——避免冗余的工具調用和重復檢查。【微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B】
不確定項與待探索方向：現階段需要繼續探索驗證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向；幫助模型在下一輪中補全未探索的搜索空間。
這個結構化狀態將被添加到下一輪探索的輸入中，確保智能體在每輪新嘗試開始時，都能清楚地了解什么已被驗證、什么仍未解決，以及應該將探索重點放在哪里。

小模型也能「以小博大」
研究團隊在五個具有挑戰性的搜索導向基準上評估了 Re-TRAC：BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE 。

4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 參數的基線中表現最佳：

在 BrowseComp 上達到 30.0% 的準確率；在 BrowseComp-ZH 上達到 36.1%；在 GAIA 上達到 70.4%；在 XBench 上達到 76.6%；在 HLE 上達到 22.2% 。
更令人驚訝的是，這個僅 4B 參數的模型在多個基準上超越了更大規模的模型。

在 XBench 基準上， RE-TRAC-4B 的 76.6% 準確率不僅遠超 InfoAgent-14B 的 40.4%（提升了近 90%），也超過了 NestBrowse-4B 的 74.0% 。
在 GAIA 基準上， RE-TRAC-4B 的 70.4% 準確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9% 。
30B 模型的進一步突破

RE-TRAC-30B 同樣表現出色，在除 HLE 外的所有基準上都擊敗了 MiniMAX-M2-229B 。

在 BrowseComp 上，其準確率達到 53% ，甚至超過了 GLM-4.7-358B 的 52% 。
在 GAIA 上， RE-TRAC-30B 擊敗了所有閉源模型，在 BrowseComp 和 BrowseComp-ZH 上排名第二。
這些結果說明，通過軌跡壓縮與跨輪次信息傳遞，小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

更少的消耗、更高的性能的通用拓展
Re-TRAC 不僅可以通過訓練提升小模型性能，還可以作為無需訓練的測試擴展直接應用于前沿模型。

研究團隊在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實現了 Re-TRAC 框架，并與多數投票（Majority Voting）、加權投票（Weighted Voting）和最佳選擇（Best-of-N）等方法進行了對比。

結果顯示， Re-TRAC 在所有模型上都達到了最佳或具有競爭力的性能。在 BrowseComp300 子集上：

o4-mini 通過 Re-TRAC 從 25.7% 提升到 46.8%； o3 從 54.9% 提升到 69.8%； GPT-5-medium 從 48.3% 提升到 66.6%； DeepSeek-V3.2 從 45.3% 提升到 60.8%； GLM-4.7 從 37.7% 提升到 60.7% 。
在傳統框架中，由于軌跡相互獨立，資源使用量通常隨擴展近似線性增長。 Re-TRAC 會繼承之前輪次的狀態，使搜索空間逐步收斂，從而減少冗余工具調用與重復探索，提升探索的效率。

技術細節：如何訓練 Re-TRAC 模型
研究團隊開發了一種后訓練方法，構建了基于結構化狀態表示的監督微調（SFT）數據。訓練數據通過實體樹方法構建：從維基百科收集大量實體作為樹根，然后遞歸搜索相關實體作為子節點，直到樹達到預定義深度。

通過選擇從根到葉節點的路徑并將邊轉換為子問題，團隊合成了 33K 個問答對。然后，收集 GLM-4.7 在這些合成問題上的 Re-TRAC（4 輪）軌跡，經過過濾后得到 104k 個訓練樣本，用于訓練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

實驗結果顯示，經過 SFT 訓練后， Qwen3-4B-Instruct 在 BrowseComp 上的準確率從 2.7% 大幅提升到 30.0% ，在 BrowseComp-ZH 上從 6.9% 提升到 36.1% ，在 GAIA 上從 24.4% 提升到 70.4% ，在 XBench 上從 45.0% 提升到 76.6% 。

這表明通過簡單的 SFT 訓練，配合 Re-TRAC 框架，可以產生強大的搜索智能體，實現與通過大規模強化學習訓練的模型相當甚至更好的性能。

總結：優化 ReAct 的搜索框架，讓小模型跑出大模型表現
Re-TRAC 可以看作是針對深度搜索任務優化過的 ReAct 框架：在原有「思考→調用工具→觀察→再思考」的范式上，引入了跨輪次的軌跡壓縮和結構化狀態表示，讓智能體在開放網絡檢索、復雜信息匯總等場景中不再「從零開始」，而是像人一樣復用既有證據、總結失敗教訓并規劃未來方向。

更重要的是，這種有針對性的框架設計讓小模型也能跑出大模型級別的效果，為資源受限場景（如邊緣設備、本地部署）提供了一條「用小模型做大事」的現實路徑。

推薦閱讀

上一篇：曝 iPhone 18 Pro 又有新設計，這升級有點猛啊

下一篇：北航開源Code2Bench：雙擴展動態評測，代碼大模型告別躺平刷分