不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

文章圖片

不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

文章圖片

不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

文章圖片

不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
提高大模型記憶這塊兒 , 美國大模型開源王者——英偉達也出招了 。
聯合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構推出了TTT-E2E方法 。
在128K超長文本上處理速度比全注意力模型快2.7倍 , 處理2M上下文時提速達35倍 , 性能還不打折 。

這項技術與前幾天大火的DeepSeek條件記憶模塊有所不同 。
DeepSeek的Engram模塊依賴的是“按需查表”的靜態學習路徑 , 而英偉達走的是動態學習的路子 , 關鍵在于上下文壓縮 。
通過實時學習將關鍵內容壓縮到自身權重中 , 讓模型在測試階段依然保持學習狀態 。
這樣既避免了額外緩存的負擔 , 又能精準捕捉長文本中的核心邏輯 。
給模型裝上記憶壓縮包
TTT-E2E并沒有依賴復雜特殊架構 , 反而是基于帶滑動窗口注意力的標準Transformer , 容易部署 。
這個方法的核心思路是將長文本建模從架構設計問題轉化為「持續學習」任務 。
在測試階段 , 模型會基于當前讀取的上下文進行下一個詞預測 。
【不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍】每讀取一段文本 , 就通過梯度下降更新自身參數 , 通過這種方式持續訓練自身 , 把讀到的文本信息動態壓縮到權重中 , 這樣就不用額外存儲冗余數據 。
在訓練階段 , 團隊通過元學習為模型做初始化準備 , 讓模型天生適應「測試時學習」的模式 。
把每個訓練序列都模擬成測試序列 , 先在內循環中對其進行測試時訓練 , 再在外循環中優化模型的初始參數 , 確保初始狀態就能快速適配測試時的學習需求 , 實現了訓練與測試的端到端對齊優化 。

為了平衡效率與穩定性 , TTT-E2E還設計了三項關鍵優化 。
一是采用「迷你批處理+滑動窗口」的組合策略 。 將測試時的訓練數據分成多個迷你批 , 配合8K大小的滑動窗口注意力 , 既解決了單token梯度更新易爆炸的問題 , 又保證模型能記住批內上下文 , 提升計算并行度;
二是精準更新策略 。 只更新模型的MLP層(凍結嵌入層、歸一化層和注意力層) , 并且只更新最后1/4的網絡塊 , 在減少計算成本的同時避免參數更新混亂;
三是雙MLP設計 。 在需更新的網絡塊中加入一個靜態MLP層 , 專門存儲預訓練知識 , 另一個動態MLP層負責吸收新上下文 , 來防止模型學新忘舊 。

從實驗數據來看 , TTT-E2E的表現很亮眼 。
在3B參數模型的測試中 , TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優 , 而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現明顯下滑;
在延遲上 , 它的推理延遲不隨上下文長度增加而變化 , 與RNN類似 , 在H100顯卡上處理128K文本時 , 速度比全注意力模型快2.7倍 。

在解碼長序列任務中 , 經Qwen-8B模型評估 , TTT-E2E生成的文本質量穩定 , 損失值持續低于傳統模型 。

通過實驗結果也可以看出 , 該方法的推理延遲與上下文長度無關 , 始終保持恒定 , 這也意味著無論處理8K還是128K文本 , 用戶都能獲得一致的快速響應體驗 。
不過 , TTT-E2E也存在一些小局限 。
在大海撈針這類需要精準回憶細節的任務中 , 它的表現遠不如全注意力模型 。
這是因為它的核心是壓縮記憶 , 會過濾掉看似無關的細節 , 而全注意力模型能近乎無損地召回所有信息 。
另一方面 , 訓練階段的元學習需要計算梯度的梯度 , 目前實現比標準預訓練要慢 。
目前 , TTT-E2E的代碼和相關論文已完全開源 。
這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun , 他同時是該研究的核心貢獻者 。

他研究的總體目標是讓人工智能系統能夠像人類一樣持續學習 。 自2019年以來 , 他就在開發“測試時訓練”的概念框架 , TTT-E2E項目的早期構想就是他提出的 。
論文地址:https://arxiv.org/abs/2512.23675代碼地址:https://github.com/test-time-training/e2e參考鏈接:https://x.com/karansdalal/status/2010774529120092481
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀