AI下半場的戰場，從Agent記憶體正式打響

2026-04-06 ai openclaw 電腦網絡安全黑客

文章圖片

文章圖片

文章圖片

最近，一個叫OpenClaw(小龍蝦)的開源項目突然爆火，甚至出現線下排隊安裝的場面。很多人第一次直觀地看到， AI不只是chatbot ，而是可以真正“動手”操作電腦、完成復雜任務和個性化工作流的智能體。這意味著AI正在進入下半場，開始走向真實應用，并逐漸進入普通人的日常生活。

如果說上半場的 AI 是在拼模型參數和 benchmark 分數，那下半場真正要解決的，是一個更現實的問題：

AI 能不能在真實世界里，持續地干活。

過去幾年，大家卷的是 scale、架構、訓練 recipe ，把 MMLU、數學題、代碼題刷到 90%+ 。但大部分的數據集幾乎都是短上下文、一次性任務。現實世界完全不是這樣：白領工作、個性化助手、醫療診斷、深度研究，全部都是長時間、多輪次、以任務為導向或者以用戶為核心的交互的場景。

Agent 能力已經從最初的嘗試 function calling ，進化到開始真正影響各類白領行業；Anthropic 開放各個行業級插件生態，也讓一批 SaaS 公司股價劇烈波動；年初 openclaw 小龍蝦項目的爆火， GitHub star 增長速度甚至超過 Linux 。

但在這些現象背后，真正的核心便是 Memory 。

近日一篇關于 Agent Memory 的系統性綜述，聯合了 20 + 所高校與工業界研究單位，包括伊利諾伊、加州等全球多所研究高校，以及 Meta、Google、Salesforce 等工業界團隊，一起梳理了 Agent memory 這條正在爆炸式發展的賽道。

論文標題：Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey

論文鏈接：https://arxiv.org/pdf/2602.06052

論文資源：https://github.com/AgentMemoryWorld/Awesome-Agent-Memory

我們會持續更新最新foundation memory的文章，歡迎關注收藏。

這篇 Agent Memory 綜述的核心是：當 Agent 從短對話走向長周期任務，真正爆炸的需求的不是僅僅模型的智能，而是去處理復雜 context、environment 的系統級 memory 能力。

單純擴大 context window ，并不能真正解決這個問題。現實環境中的信息會持續累積，復雜度遠不止 token 數量的增長。

用戶的歷史行為、多任務記錄、工具調用結果、外部文檔、環境狀態變化、模型自身的推理軌跡都會持續積累。隨著時間推移，這些信息相互交織。如果只是簡單拼接到 prompt 中，推理成本會迅速上升，注意力機制會被噪聲淹沒，關鍵線索反而更難被捕捉。

更重要的是，真實任務具有時間跨度。一個科研助手不能在每次對話時都 “忘記” 過去的討論；一個個性化助理不能每一輪都重新學習你的偏好。

因此，問題不再是 “能讀多少 token” ，而是：

Agent 是否具備真正的 memory 機制，能夠存儲、抽象、壓縮、更新甚至遺忘信息，并在長期過程中持續演化。這也是近兩年 memory 相關論文數量急劇增長的根本原因。

Memory 不只是 RAG

很多人把 memory 簡化為 “RAG + 向量庫” 。這種理解只觸及了表層。

這篇綜述從系統設計視角重新組織了 Agent Memory ，將其拆解為多個相互作用的維度，而不是一個孤立模塊。

1. 首先是 memory 存儲的位置。它可以存在于模型內部，例如通過參數更新、latent 表示或擴展的 KV cache；也可以存在于模型外部，例如結構化數據庫、知識圖譜或事件日志。內部 memory 緊密但難以控制，外部 memory 可解釋性更強但需要調度策略。未來的 Agent 很可能是多層 memory 協同的混合結構。

2. 其次是 memory 在認知層面的功能。借鑒認知科學的劃分， memory 可以承擔不同 function 。有些負責短期感知，有些支撐當前任務，有些記錄具體事件，有些沉淀抽象知識，還有一些用于形成技能和策略。

3. 最后是 memory 的主體。記憶可以服務于用戶，用于個性化；可以服務于任務領域，用于形成專業能力；也可以服務于 Agent 自身，用于自我改進。三者的優化目標和更新策略并不相同。

當這三條軸展開之后，我們看到的已經不是簡單的 “存儲系統” ，而是一個系統級記憶體結構框架。未來 Agent 的在真實應用場景的能力上限，很可能不再完全取決于模型參數規模，而是依賴于 memory 如何與工具、環境和用戶交互。

當環境變得真實，
數據集評估變得尤為重要

在真實部署中， Agent 面對的不再是靜態 prompt ，而是動態環境。網頁狀態在變，文件系統在更新，工具輸出不斷疊加，權限與約束持續變化。 context 的增長不只是對話歷史延長，而是跨時間、跨系統、跨任務的狀態積累。

因此， memory 的核心挑戰不再是 “能存多少” ，而是 “如何管理環境狀態” 。

隨著交互時間變長、環境復雜度提升、工具數量增加， context 會沿多個維度擴張。單純擴大窗口無法解決結構混亂、信息污染和因果斷裂的問題。 Agent 必須能夠結構化存儲環境狀態，維護可更新、可回溯的內部表示，而不是簡單拼接 token 。

未來的關鍵方向是讓 memory 策略本身可學習。系統需要學會在長期回報下判斷哪些信息值得保留、哪些應被壓縮、哪些可以遺忘。這意味著 memory controller 將從規則工程演化為優化目標的一部分。

評測體系也會隨之轉向。未來 benchmark 的核心不再只是回答是否正確，而是任務是否真正完成、環境狀態是否被正確維護、決策是否可追溯。真實世界環境的構建，將成為區分實驗室模型與可部署 Agent 的分水嶺。

也許幾年后我們回頭看，會發現：

上半場解決的是模型是否會智能對話。

下半場真正要解決的是：

Agent 能不能幫你把事情做完。

從單輪智能到長期協作，從一次性回答到跨環境執行， AI 的重心正在悄然轉移。

決定系統價值上限的，或許不再只是參數規模，而是 memory 的系統級設計能力。

AI 的下半場，這場無硝煙的戰場，

【AI下半場的戰場，從Agent記憶體正式打響】已經從系統級記憶體正式打響！

推薦閱讀

上一篇：它石智航AWE線下首秀，靠“干活”獲吉尼斯世界紀錄稱號

下一篇：24GB+1TB！新品官宣：3月18日，正式發布