9B端側開源模型跑通百萬上下文，面壁全新稀疏-線性混合注意力

2026-03-24 Nvidia github lightning

文章圖片

文章圖片

文章圖片

文章圖片

henry 發自凹非寺
量子位 | 公眾號 QbitAI
最強的大模型，已經把scaling卷到了一個新維度：百萬級上下文。
幾天前， Claude Opus 4.6發布，讓人第一次真切感受到了百萬上下文的涌現能力——
單次吃進50萬字中文內容、實現跨文檔法律分析、多輪Agent規劃……
此情此景，用戶火速用腳投票，華爾街更是直接給出K線回應。

而這股scaling的風，也很快吹到了端側。
剛剛，面壁智能帶著首次大規模訓練的稀疏與線性混合注意力模型，小年交卷——
這套新注意力架構，不僅解決了傳統Transformer的計算冗余，還第一次在性能無損的前提下，讓9B端側模型能夠在5090顯卡上處理百萬長文本。
與此同時，基于SALA注意力架構的模型MiniCPM-SALA也將一并開源。
除此之外，面壁還以OpenBMB社區名義，聯合SGLang與NVIDIA發起2026稀疏算子加速大獎賽（SOAR），將這套scaling能力直接交到開發者手中，推動端側Agent部署的性能突破。
Linear-Sparse混合注意力架構太長不看，咱直接說重點——
面壁這次全新的線性與稀疏注意力混合架構SALA（Sparse Attention-Linear Attention ， SALA），究竟是怎么個混合法呢？
簡單來說，這套架構將75%線性注意力（Lightning Attention）與25%稀疏注意力（InfLLM v2）結合，并通過混合位置編碼HyPE（Hybrid Position Encoding）實現兩者的高效協同與超強的長度外推。

在線性注意力模塊， Linear-Sparse選用Lightning Attention作為核心算子，負責快速、穩定地建模長文本的全局信息。

Lightning Attention的計算方式與傳統全注意力接近，方便現有全注意力模型直接遷移到混合架構，無需從零開始預訓練。
同時，借助QK-normalization和輸出門控機制，使線性層在百萬級上下文訓練下保持數值穩定，避免梯度爆炸或下溢。
在稀疏注意力模塊， Linear-Sparse采用InfLLMv2來精準捕捉長序列中的關鍵局部信息。

InfLLM v2可按需選擇關鍵KV ，讓每個Query只計算必要部分，從而大幅提高長文本處理效率。
值得一提的是， InfLLM v2還能在長文本中自動啟用稀疏模式，在標準長度下回退為稠密計算，實現長短文本的無縫切換。
最后，混合位置編碼HyPE（Hybrid Position Encoding)的引入，則保證了線性和稀疏兩種注意力機制的充分協同。
一方面，線性層保留RoPE以維持與原全注意力模型在參數分布和特征空間上的一致性，保證中短文本性能穩健。
另一方面，稀疏層采用NoPE（無位置編碼），讓KV-Cache與位置信息解耦，規避長距離衰減問題，使模型在百萬長度上下文中仍能高效檢索極遠信息。
訓練上， MiniCPM-SALA采用Transformer-to-Hybrid低成本構建方法（HALO）。

具體而言，模型通過HALO方法將75%的全注意力層轉換為線性注意力層，整個過程包括參數轉換、隱狀態對齊、層選擇以及知識蒸餾四個步驟。
最終，這套Linear-Sparse設計讓MiniCPM-SALA在端側處理超長文本時，不僅顯存占用極低、計算高效，而且語義精度依然保持領先水平。
為什么百萬上下文，必須是“混合注意力”？要回答這個問題，得先回到傳統的Full Attention 。

在經典Transformer里，每生成一個新token ，都要和之前所有token做兩兩計算，其計算復雜度是典型的O(N2) 。
這意味著，把上下文從1萬拉到100萬，計算量不是漲100倍，而是直接飆升1萬倍。與此同時，為了讓模型“記住”所有歷史信息，還得把KV對全攢在顯存里。
隨著上下文長度增加， KV Cache迅速膨脹，很快就會爆顯存。
由此可見，想解決長上下文問題，注意力機制是核心瓶頸。
過去幾年，業界圍繞這一瓶頸探索了多條路線，本質上都是在精度、效率與可部署性之間尋找平衡點：
第一類是線性注意力，通常為線性和全注意力結合的混合設計。
它用記憶狀態替代傳統兩兩打分，能將計算復雜度從O(N2)降到O(N) 。
優點是可以吃下百萬級上下文，但底層采用有損壓縮，序列越長，早期信息越容易被稀釋，導致上下文遺忘和模型能力下降。
第二類是原生稀疏注意力。
只計算關鍵位置，精度接近全注意力，但為了支持長程歷史回顧，仍需全量保存KV Cache ，導致端側部署成本高。
第三類是放棄顯式注意力的狀態空間模型，如Mamba 。
這類方法推理效率高、幾乎不需要KV Cache ，但在精確指令遵循和長距離精確檢索上，仍不夠穩定。
綜上，我們不難看出注意力機制改動是長上下文scaling的主戰場。
但真正能同時兼顧百萬級上下文能力、推理效率和端側可落地性的方案，仍然稀缺。
這也是為什么面壁提出Linear-Sparse混合注意力架構的出發點。
【9B端側開源模型跑通百萬上下文，面壁全新稀疏-線性混合注意力】用線性機制承擔大規模上下文的承載，用稀疏機制補足關鍵位置的精確建模能力。
在這一架構下，模型不再需要對所有token做完整的兩兩計算，也不必無條件保存全量KV Cache 。
新的混合注意力架構可以在顯著降低推理開銷和顯存占用的同時，避免純線性注意力在長程信息召回上的精度損失，以及稀疏注意力在端側設備要求上的局限。
基于這一設計，面壁還開源了MiniCPM-SALA ，用來驗證該架構在真實長上下文場景下的潛力。
在效果層面，得益于顯著更低的顯存占用和更高的推理效率， MiniCPM-SALA首次在5090這樣的消費級顯卡上，將1M上下文完整跑通，為長上下文從云端走向端側提供了一條現實可行的路徑。
與此同時，在不依賴投機推理等額外加速算法的前提下，相比同尺寸開源模型， MiniCPM-SALA在256K序列上實現了2倍以上的速度提升。
當序列長度進一步提升至512K甚至1M時，部分同尺寸模型已經遭遇顯存瓶頸，而MiniCPM-SALA依然能夠穩定運行。
（詳細測評結果可參考MiniCPM-SALA的GitHub或Hugging Face README）
從這些結果來看，未來的大模型，并不一定需要Full Attention才能具備完整能力。
當上下文成為第一性資源時，像Linear-Sparse混合注意力這樣的新型注意力設計，正在成為影響模型能否真正落地的重要變量。
2026稀疏算子加速大獎賽如果說MiniCPM-SALA讓Linear-Sparse混合架構的能力有了實證，那么今年的SOAR（稀疏算子加速大獎賽）就是讓這套技術“落地跑起來”的舞臺。
這場比賽由面壁智能、OpenBMB聯合SGLang社區和NVIDIA共同發起。
旨在通過全球極客的深度協作，共同探索MiniCPM-SALA這一全球首創“稀疏+線性”混合架構模型在1M長文本推理上的性能極限。
具體來說，大賽聚焦于稀疏算子融合與編譯優化等底層技術挑戰，嘗試在消費級GPU上實現百萬Token推理且KV Cache6GB的極致效率。
比賽時間從2月11日持續到5月29日，設有總獎池超過70萬人民幣的獎勵。
參賽者不僅能測試混合架構在真實硬件上的極限，還能探索端側高效長文本處理的新方法。
比賽鏈接：https://soar.openbmb.cn/

面壁為什么執著于用SALA重構長上下文？這并不是為了“卷長上下文指標” 。
面壁的一大目標是從Densing Law（密度法則）的第一性原理出發，將通用能力強的模型落到智能終端如手機、汽車、機器人等上，而SALA架構的創新是通往羅馬的關鍵：
正是基于對注意力機制的創新， MiniCPM-SALA模型才能足夠高效、顯存占用足夠低，面壁才能首次在5090這樣的消費級GPU 上，把一兆級長文本端側推理真正跑通。
這一步一旦成立，長上下文就不再只是云端模型的特權，而成為端側智能可以依賴的基礎能力。
如果把面壁今年的動作放在一起看，其實不難理解其在端側智能上的整體思路：
從模型底層直通端側生態，核心就是上下文。
無論是模型架構的迭代，還是長文本的競技，本質上都是一次針對端側落地的“兩步走”戰略。
而這，并非偶然。
放眼整個行業， Agent的核心瓶頸已從單純的參數量轉向上下文能力——
從模型層的Claude Opus 4.6 ，到應用層的Claude Cowork、Clawdbot（現OpenClaw），再到評估層的CL-Bench ，行業共識已經非常明確：
能否一次吸收、理解并持續利用大量上下文，是決定Agent可用性的關鍵。
與此同時，基于注意力機制優化上下文處理，也已成為學界到產業公認的主戰場。
去年NeurIPS 2025最佳論文給到門控注意力；產業側， Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——
幾乎所有核心玩家，都在attention這條線上持續加碼。
因為這不是一個“工程調優”問題，而是架構級問題。
只有真正具備AGI野心和技術縱深的公司，才有能力從底層架構一路改到上層算法。
也只有真正想把模型能力推到邊界的團隊，才有魄力去挑戰已經被奉為主流、但顯然仍有優化空間的Transformer傳統范式。
而面壁選擇這條路，更是因為其與端側部署的目標高度契合：
首先，端側Agent要處理的包括通訊錄、位置信息、聊天記錄。
出于隱私保護，這些數據無法走向云端。只有讓模型本身具備超長上下文能力，個人助理才能在本地真正“懂你” 。
其次，通用榜單已進入紅海，端側開發者關心的問題也已從特定的benchmark ，轉向真實世界環境的上下文應用。
這正如DeepSeek研究員茍志斌所言：
預訓練能scaling ， RL也能scaling ，上下文也能scaling ，模型仍在繼續scaling 。

換句話說，參數規模已經不再是唯一指標，真正的競爭力在于模型/Agent在復雜上下文中持續推理和行動的能力，這將直接決定模型從demo走向倉庫級代碼助手、行業知識庫Agent 。
最后也是最本質的，不解決長文本推理部署成本，端側智能也就無法真正落地。
所以面壁不只做模型，更在做生態：從開源MiniCPM-SALA ，到舉辦端側長文本比賽降低部署成本，再到深耕開發者社區，面壁正在拼出一條劍指“百萬上下文時代個人智能體”的主線。
比賽鏈接:
https://soar.openbmb.cn/
技術報告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf
Github:
https://github.com/openbmb/minicpm
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA
ModelScope:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

推薦閱讀

上一篇：剛剛，DeepSeek悄悄測試新模型：百萬token上下文、V4要來了？

下一篇：北京開設首家機器人服務綜合體