9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

文章圖片

9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

文章圖片

9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

文章圖片

9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力

文章圖片


henry 發自 凹非寺
量子位 | 公眾號 QbitAI
最強的大模型 , 已經把scaling卷到了一個新維度:百萬級上下文 。
幾天前 , Claude Opus 4.6發布 , 讓人第一次真切感受到了百萬上下文的涌現能力——
單次吃進50萬字中文內容、實現跨文檔法律分析、多輪Agent規劃……
此情此景 , 用戶火速用腳投票 , 華爾街更是直接給出K線回應 。

而這股scaling的風 , 也很快吹到了端側 。
剛剛 , 面壁智能帶著首次大規模訓練的稀疏與線性混合注意力模型 , 小年交卷——
這套新注意力架構 , 不僅解決了傳統Transformer的計算冗余 , 還第一次在性能無損的前提下 , 讓9B端側模型能夠在5090顯卡上處理百萬長文本 。
與此同時 , 基于SALA注意力架構的模型MiniCPM-SALA也將一并開源 。
除此之外 , 面壁還以OpenBMB社區名義 , 聯合SGLang與NVIDIA發起2026稀疏算子加速大獎賽(SOAR) , 將這套scaling能力直接交到開發者手中 , 推動端側Agent部署的性能突破 。
Linear-Sparse混合注意力架構太長不看 , 咱直接說重點——
面壁這次全新的線性與稀疏注意力混合架構SALA(Sparse Attention-Linear Attention , SALA) , 究竟是怎么個混合法呢?
簡單來說 , 這套架構將75%線性注意力(Lightning Attention)與25%稀疏注意力(InfLLM v2)結合 , 并通過混合位置編碼HyPE(Hybrid Position Encoding)實現兩者的高效協同與超強的長度外推 。

在線性注意力模塊 , Linear-Sparse選用Lightning Attention作為核心算子 , 負責快速、穩定地建模長文本的全局信息 。

Lightning Attention的計算方式與傳統全注意力接近 , 方便現有全注意力模型直接遷移到混合架構 , 無需從零開始預訓練 。
同時 , 借助QK-normalization和輸出門控機制 , 使線性層在百萬級上下文訓練下保持數值穩定 , 避免梯度爆炸或下溢 。
在稀疏注意力模塊 , Linear-Sparse采用InfLLMv2來精準捕捉長序列中的關鍵局部信息 。

InfLLM v2可按需選擇關鍵KV , 讓每個Query只計算必要部分 , 從而大幅提高長文本處理效率 。
值得一提的是 , InfLLM v2還能在長文本中自動啟用稀疏模式 , 在標準長度下回退為稠密計算 , 實現長短文本的無縫切換 。
最后 , 混合位置編碼HyPE(Hybrid Position Encoding)的引入 , 則保證了線性和稀疏兩種注意力機制的充分協同 。
一方面 , 線性層保留RoPE以維持與原全注意力模型在參數分布和特征空間上的一致性 , 保證中短文本性能穩健 。
另一方面 , 稀疏層采用NoPE(無位置編碼) , 讓KV-Cache與位置信息解耦 , 規避長距離衰減問題 , 使模型在百萬長度上下文中仍能高效檢索極遠信息 。
訓練上 , MiniCPM-SALA采用Transformer-to-Hybrid低成本構建方法(HALO) 。

具體而言 , 模型通過HALO方法將75%的全注意力層轉換為線性注意力層 , 整個過程包括參數轉換、隱狀態對齊、層選擇以及知識蒸餾四個步驟 。
最終 , 這套Linear-Sparse設計讓MiniCPM-SALA在端側處理超長文本時 , 不僅顯存占用極低、計算高效 , 而且語義精度依然保持領先水平 。
為什么百萬上下文 , 必須是“混合注意力”?要回答這個問題 , 得先回到傳統的Full Attention 。

在經典Transformer里 , 每生成一個新token , 都要和之前所有token做兩兩計算 , 其計算復雜度是典型的O(N2) 。
這意味著 , 把上下文從1萬拉到100萬 , 計算量不是漲100倍 , 而是直接飆升1萬倍 。 與此同時 , 為了讓模型“記住”所有歷史信息 , 還得把KV對全攢在顯存里 。
隨著上下文長度增加 , KV Cache迅速膨脹 , 很快就會爆顯存 。
由此可見 , 想解決長上下文問題 , 注意力機制是核心瓶頸 。
過去幾年 , 業界圍繞這一瓶頸探索了多條路線 , 本質上都是在精度、效率與可部署性之間尋找平衡點:
第一類是線性注意力 , 通常為線性和全注意力結合的混合設計 。
它用記憶狀態替代傳統兩兩打分 , 能將計算復雜度從O(N2)降到O(N) 。
優點是可以吃下百萬級上下文 , 但底層采用有損壓縮 , 序列越長 , 早期信息越容易被稀釋 , 導致上下文遺忘和模型能力下降 。
第二類是原生稀疏注意力 。
只計算關鍵位置 , 精度接近全注意力 , 但為了支持長程歷史回顧 , 仍需全量保存KV Cache , 導致端側部署成本高 。
第三類是放棄顯式注意力的狀態空間模型 , 如Mamba 。
這類方法推理效率高、幾乎不需要KV Cache , 但在精確指令遵循和長距離精確檢索上 , 仍不夠穩定 。
綜上 , 我們不難看出注意力機制改動是長上下文scaling的主戰場 。
但真正能同時兼顧百萬級上下文能力、推理效率和端側可落地性的方案 , 仍然稀缺 。
這也是為什么面壁提出Linear-Sparse混合注意力架構的出發點 。
【9B端側開源模型跑通百萬上下文,面壁全新稀疏-線性混合注意力】用線性機制承擔大規模上下文的承載 , 用稀疏機制補足關鍵位置的精確建模能力 。
在這一架構下 , 模型不再需要對所有token做完整的兩兩計算 , 也不必無條件保存全量KV Cache 。
新的混合注意力架構可以在顯著降低推理開銷和顯存占用的同時 , 避免純線性注意力在長程信息召回上的精度損失 , 以及稀疏注意力在端側設備要求上的局限 。
基于這一設計 , 面壁還開源了MiniCPM-SALA , 用來驗證該架構在真實長上下文場景下的潛力 。
在效果層面 , 得益于顯著更低的顯存占用和更高的推理效率 , MiniCPM-SALA首次在5090這樣的消費級顯卡上 , 將1M上下文完整跑通 , 為長上下文從云端走向端側提供了一條現實可行的路徑 。
與此同時 , 在不依賴投機推理等額外加速算法的前提下 , 相比同尺寸開源模型 , MiniCPM-SALA在256K序列上實現了2倍以上的速度提升 。
當序列長度進一步提升至512K甚至1M時 , 部分同尺寸模型已經遭遇顯存瓶頸 , 而MiniCPM-SALA依然能夠穩定運行 。
(詳細測評結果可參考MiniCPM-SALA的GitHub或Hugging Face README)
從這些結果來看 , 未來的大模型 , 并不一定需要Full Attention才能具備完整能力 。
當上下文成為第一性資源時 , 像Linear-Sparse混合注意力這樣的新型注意力設計 , 正在成為影響模型能否真正落地的重要變量 。
2026稀疏算子加速大獎賽如果說MiniCPM-SALA讓Linear-Sparse混合架構的能力有了實證 , 那么今年的SOAR(稀疏算子加速大獎賽)就是讓這套技術“落地跑起來”的舞臺 。
這場比賽由面壁智能、OpenBMB聯合SGLang社區和NVIDIA共同發起 。
旨在通過全球極客的深度協作 , 共同探索MiniCPM-SALA這一全球首創“稀疏+線性”混合架構模型在1M長文本推理上的性能極限 。
具體來說 , 大賽聚焦于稀疏算子融合與編譯優化等底層技術挑戰 , 嘗試在消費級GPU上實現百萬Token推理且KV Cache6GB的極致效率 。
比賽時間從2月11日持續到5月29日 , 設有總獎池超過70萬人民幣的獎勵 。
參賽者不僅能測試混合架構在真實硬件上的極限 , 還能探索端側高效長文本處理的新方法 。
比賽鏈接:https://soar.openbmb.cn/

面壁為什么執著于用SALA重構長上下文?這并不是為了“卷長上下文指標” 。
面壁的一大目標是從Densing Law(密度法則)的第一性原理出發 , 將通用能力強的模型落到智能終端如手機、汽車、機器人等上 , 而SALA架構的創新是通往羅馬的關鍵:
正是基于對注意力機制的創新 , MiniCPM-SALA模型才能足夠高效、顯存占用足夠低 , 面壁才能首次在5090這樣的消費級GPU 上 , 把一兆級長文本端側推理真正跑通 。
這一步一旦成立 , 長上下文就不再只是云端模型的特權 , 而成為端側智能可以依賴的基礎能力 。
如果把面壁今年的動作放在一起看 , 其實不難理解其在端側智能上的整體思路:
從模型底層直通端側生態 , 核心就是上下文 。
無論是模型架構的迭代 , 還是長文本的競技 , 本質上都是一次針對端側落地的“兩步走”戰略 。
而這 , 并非偶然 。
放眼整個行業 , Agent的核心瓶頸已從單純的參數量轉向上下文能力——
從模型層的Claude Opus 4.6 , 到應用層的Claude Cowork、Clawdbot(現OpenClaw) , 再到評估層的CL-Bench , 行業共識已經非常明確:
能否一次吸收、理解并持續利用大量上下文 , 是決定Agent可用性的關鍵 。
與此同時 , 基于注意力機制優化上下文處理 , 也已成為學界到產業公認的主戰場 。
去年NeurIPS 2025最佳論文給到門控注意力;產業側 , Kimi的KDA、DeepSeek的NSA、MiniMax的Lightning相繼推出新方案——
幾乎所有核心玩家 , 都在attention這條線上持續加碼 。
因為這不是一個“工程調優”問題 , 而是架構級問題 。
只有真正具備AGI野心和技術縱深的公司 , 才有能力從底層架構一路改到上層算法 。
也只有真正想把模型能力推到邊界的團隊 , 才有魄力去挑戰已經被奉為主流、但顯然仍有優化空間的Transformer傳統范式 。
而面壁選擇這條路 , 更是因為其與端側部署的目標高度契合:
首先 , 端側Agent要處理的包括通訊錄、位置信息、聊天記錄 。
出于隱私保護 , 這些數據無法走向云端 。 只有讓模型本身具備超長上下文能力 , 個人助理才能在本地真正“懂你” 。
其次 , 通用榜單已進入紅海 , 端側開發者關心的問題也已從特定的benchmark , 轉向真實世界環境的上下文應用 。
這正如DeepSeek研究員茍志斌所言:
預訓練能scaling , RL也能scaling , 上下文也能scaling , 模型仍在繼續scaling 。

換句話說 , 參數規模已經不再是唯一指標 , 真正的競爭力在于模型/Agent在復雜上下文中持續推理和行動的能力 , 這將直接決定模型從demo走向倉庫級代碼助手、行業知識庫Agent 。
最后也是最本質的 , 不解決長文本推理部署成本 , 端側智能也就無法真正落地 。
所以面壁不只做模型 , 更在做生態:從開源MiniCPM-SALA , 到舉辦端側長文本比賽降低部署成本 , 再到深耕開發者社區 , 面壁正在拼出一條劍指“百萬上下文時代個人智能體”的主線 。
比賽鏈接:
https://soar.openbmb.cn/
技術報告:
https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM SALA.pdf
Github:
https://github.com/openbmb/minicpm
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-SALA
ModelScope:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

    推薦閱讀