不用額外緩存！英偉達開源記憶壓縮方案，128K上下文提速2.7倍

2026-05-09 航天西安高新區陜西低空經濟

文章圖片

文章圖片

文章圖片

聞樂發自凹非寺
量子位 | 公眾號 QbitAI
提高大模型記憶這塊兒，美國大模型開源王者——英偉達也出招了。
聯合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構推出了TTT-E2E方法。
在128K超長文本上處理速度比全注意力模型快2.7倍，處理2M上下文時提速達35倍，性能還不打折。

這項技術與前幾天大火的DeepSeek條件記憶模塊有所不同。
DeepSeek的Engram模塊依賴的是“按需查表”的靜態學習路徑，而英偉達走的是動態學習的路子，關鍵在于上下文壓縮。
通過實時學習將關鍵內容壓縮到自身權重中，讓模型在測試階段依然保持學習狀態。
這樣既避免了額外緩存的負擔，又能精準捕捉長文本中的核心邏輯。
給模型裝上記憶壓縮包
TTT-E2E并沒有依賴復雜特殊架構，反而是基于帶滑動窗口注意力的標準Transformer ，容易部署。
這個方法的核心思路是將長文本建模從架構設計問題轉化為「持續學習」任務。
在測試階段，模型會基于當前讀取的上下文進行下一個詞預測。
【不用額外緩存！英偉達開源記憶壓縮方案，128K上下文提速2.7倍】每讀取一段文本，就通過梯度下降更新自身參數，通過這種方式持續訓練自身，把讀到的文本信息動態壓縮到權重中，這樣就不用額外存儲冗余數據。
在訓練階段，團隊通過元學習為模型做初始化準備，讓模型天生適應「測試時學習」的模式。
把每個訓練序列都模擬成測試序列，先在內循環中對其進行測試時訓練，再在外循環中優化模型的初始參數，確保初始狀態就能快速適配測試時的學習需求，實現了訓練與測試的端到端對齊優化。

為了平衡效率與穩定性， TTT-E2E還設計了三項關鍵優化。
一是采用「迷你批處理+滑動窗口」的組合策略。將測試時的訓練數據分成多個迷你批，配合8K大小的滑動窗口注意力，既解決了單token梯度更新易爆炸的問題，又保證模型能記住批內上下文，提升計算并行度；
二是精準更新策略。只更新模型的MLP層（凍結嵌入層、歸一化層和注意力層），并且只更新最后1/4的網絡塊，在減少計算成本的同時避免參數更新混亂；
三是雙MLP設計。在需更新的網絡塊中加入一個靜態MLP層，專門存儲預訓練知識，另一個動態MLP層負責吸收新上下文，來防止模型學新忘舊。

從實驗數據來看， TTT-E2E的表現很亮眼。
在3B參數模型的測試中， TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優，而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現明顯下滑；
在延遲上，它的推理延遲不隨上下文長度增加而變化，與RNN類似，在H100顯卡上處理128K文本時，速度比全注意力模型快2.7倍。

在解碼長序列任務中，經Qwen-8B模型評估， TTT-E2E生成的文本質量穩定，損失值持續低于傳統模型。

通過實驗結果也可以看出，該方法的推理延遲與上下文長度無關，始終保持恒定，這也意味著無論處理8K還是128K文本，用戶都能獲得一致的快速響應體驗。
不過， TTT-E2E也存在一些小局限。
在大海撈針這類需要精準回憶細節的任務中，它的表現遠不如全注意力模型。
這是因為它的核心是壓縮記憶，會過濾掉看似無關的細節，而全注意力模型能近乎無損地召回所有信息。
另一方面，訓練階段的元學習需要計算梯度的梯度，目前實現比標準預訓練要慢。
目前， TTT-E2E的代碼和相關論文已完全開源。
這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun ，他同時是該研究的核心貢獻者。

他研究的總體目標是讓人工智能系統能夠像人類一樣持續學習。自2019年以來，他就在開發“測試時訓練”的概念框架， TTT-E2E項目的早期構想就是他提出的。
論文地址：https://arxiv.org/abs/2512.23675代碼地址：https://github.com/test-time-training/e2e參考鏈接：https://x.com/karansdalal/status/2010774529120092481
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：國產Nano Banana開源！用華為AI芯片訓練，1張圖只要1毛錢

下一篇：Intel新U現身，Arrow Lake Refresh大概率將會很快到來