AI下半場的戰場,從Agent記憶體正式打響

AI下半場的戰場,從Agent記憶體正式打響

文章圖片

AI下半場的戰場,從Agent記憶體正式打響

文章圖片

AI下半場的戰場,從Agent記憶體正式打響

文章圖片

AI下半場的戰場,從Agent記憶體正式打響



最近 , 一個叫OpenClaw(小龍蝦)的開源項目突然爆火 , 甚至出現線下排隊安裝的場面 。 很多人第一次直觀地看到 , AI不只是chatbot , 而是可以真正“動手”操作電腦、完成復雜任務和個性化工作流的智能體 。 這意味著AI正在進入下半場 , 開始走向真實應用 , 并逐漸進入普通人的日常生活 。


如果說上半場的 AI 是在拼模型參數和 benchmark 分數 , 那下半場真正要解決的 , 是一個更現實的問題:


AI 能不能在真實世界里 , 持續地干活 。


過去幾年 , 大家卷的是 scale、架構、訓練 recipe , 把 MMLU、數學題、代碼題刷到 90%+ 。 但大部分的數據集幾乎都是短上下文、一次性任務 。 現實世界完全不是這樣:白領工作、個性化助手、醫療診斷、深度研究 , 全部都是長時間、多輪次、以任務為導向或者以用戶為核心的交互的場景 。


Agent 能力已經從最初的嘗試 function calling , 進化到開始真正影響各類白領行業;Anthropic 開放各個行業級插件生態 , 也讓一批 SaaS 公司股價劇烈波動;年初 openclaw 小龍蝦項目的爆火 , GitHub star 增長速度甚至超過 Linux 。


但在這些現象背后 , 真正的核心便是 Memory 。


近日一篇關于 Agent Memory 的系統性綜述 , 聯合了 20 + 所高校與工業界研究單位 , 包括伊利諾伊、加州等全球多所研究高校 , 以及 Meta、Google、Salesforce 等工業界團隊 , 一起梳理了 Agent memory 這條正在爆炸式發展的賽道 。





  • 論文標題:Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey
  • 論文鏈接:https://arxiv.org/pdf/2602.06052
  • 論文資源:https://github.com/AgentMemoryWorld/Awesome-Agent-Memory


我們會持續更新最新foundation memory的文章 , 歡迎關注收藏 。





這篇 Agent Memory 綜述的核心是:當 Agent 從短對話走向長周期任務 , 真正爆炸的需求的不是僅僅模型的智能 , 而是去處理復雜 context、environment 的系統級 memory 能力 。


單純擴大 context window , 并不能真正解決這個問題 。 現實環境中的信息會持續累積 , 復雜度遠不止 token 數量的增長 。


用戶的歷史行為、多任務記錄、工具調用結果、外部文檔、環境狀態變化、模型自身的推理軌跡都會持續積累 。 隨著時間推移 , 這些信息相互交織 。 如果只是簡單拼接到 prompt 中 , 推理成本會迅速上升 , 注意力機制會被噪聲淹沒 , 關鍵線索反而更難被捕捉 。


更重要的是 , 真實任務具有時間跨度 。 一個科研助手不能在每次對話時都 “忘記” 過去的討論;一個個性化助理不能每一輪都重新學習你的偏好 。


因此 , 問題不再是 “能讀多少 token” , 而是:


Agent 是否具備真正的 memory 機制 , 能夠存儲、抽象、壓縮、更新甚至遺忘信息 , 并在長期過程中持續演化 。 這也是近兩年 memory 相關論文數量急劇增長的根本原因 。





Memory 不只是 RAG


很多人把 memory 簡化為 “RAG + 向量庫” 。 這種理解只觸及了表層 。


這篇綜述從系統設計視角重新組織了 Agent Memory , 將其拆解為多個相互作用的維度 , 而不是一個孤立模塊 。


1. 首先是 memory 存儲的位置 。 它可以存在于模型內部 , 例如通過參數更新、latent 表示或擴展的 KV cache;也可以存在于模型外部 , 例如結構化數據庫、知識圖譜或事件日志 。 內部 memory 緊密但難以控制 , 外部 memory 可解釋性更強但需要調度策略 。 未來的 Agent 很可能是多層 memory 協同的混合結構 。


2. 其次是 memory 在認知層面的功能 。 借鑒認知科學的劃分 , memory 可以承擔不同 function 。 有些負責短期感知 , 有些支撐當前任務 , 有些記錄具體事件 , 有些沉淀抽象知識 , 還有一些用于形成技能和策略 。


3. 最后是 memory 的主體 。 記憶可以服務于用戶 , 用于個性化;可以服務于任務領域 , 用于形成專業能力;也可以服務于 Agent 自身 , 用于自我改進 。 三者的優化目標和更新策略并不相同 。


當這三條軸展開之后 , 我們看到的已經不是簡單的 “存儲系統” , 而是一個系統級記憶體結構框架 。 未來 Agent 的在真實應用場景的能力上限 , 很可能不再完全取決于模型參數規模 , 而是依賴于 memory 如何與工具、環境和用戶交互 。


當環境變得真實 ,
數據集評估變得尤為重要


在真實部署中 , Agent 面對的不再是靜態 prompt , 而是動態環境 。 網頁狀態在變 , 文件系統在更新 , 工具輸出不斷疊加 , 權限與約束持續變化 。 context 的增長不只是對話歷史延長 , 而是跨時間、跨系統、跨任務的狀態積累 。


因此 , memory 的核心挑戰不再是 “能存多少” , 而是 “如何管理環境狀態” 。


隨著交互時間變長、環境復雜度提升、工具數量增加 , context 會沿多個維度擴張 。 單純擴大窗口無法解決結構混亂、信息污染和因果斷裂的問題 。 Agent 必須能夠結構化存儲環境狀態 , 維護可更新、可回溯的內部表示 , 而不是簡單拼接 token 。


未來的關鍵方向是讓 memory 策略本身可學習 。 系統需要學會在長期回報下判斷哪些信息值得保留、哪些應被壓縮、哪些可以遺忘 。 這意味著 memory controller 將從規則工程演化為優化目標的一部分 。


評測體系也會隨之轉向 。 未來 benchmark 的核心不再只是回答是否正確 , 而是任務是否真正完成、環境狀態是否被正確維護、決策是否可追溯 。 真實世界環境的構建 , 將成為區分實驗室模型與可部署 Agent 的分水嶺 。








也許幾年后我們回頭看 , 會發現:


上半場解決的是模型是否會智能對話 。


下半場真正要解決的是:


Agent 能不能幫你把事情做完 。





從單輪智能到長期協作 , 從一次性回答到跨環境執行 , AI 的重心正在悄然轉移 。


決定系統價值上限的 , 或許不再只是參數規模 , 而是 memory 的系統級設計能力 。


AI 的下半場 , 這場無硝煙的戰場 ,


【AI下半場的戰場,從Agent記憶體正式打響】已經從系統級記憶體正式打響!

    推薦閱讀