IEEE論文：用HBF重塑HBM

2026-03-11 人工智能 ai Google deepmind

文章圖片

SK 海力士近期發表一篇 IEEE 論文，提出一種全新架構：在同一中介層（interposer）上，將高帶寬內存（HBM）的速度與高帶寬閃存（HBF）的容量相結合，并直連 GPU ，用以加速 AI 大模型與智能體的推理處理。
目前的 GPU ，以及即將推出的英偉達 Rubin 架構，均通過中介層連接 HBM ，為 GPU 核心提供高速、高帶寬的數據供給。但隨著 AI 大語言模型（LLM）規模不斷擴大， HBM 容量不足的問題愈發突出，數據不得不從速度更慢的本地 SSD 中調取，顯著拉長了推理耗時。
HBF 的訪問速度雖慢于 HBM ，但遠快于普通本地 SSD ，且容量更大。 SK 海力士的H3 設計將其與 HBM 置于同一片中介層上，可讓 HBF 充當 HBM 的高速緩存，大幅縮短超大模型的處理時間。
我們可以這樣理解這一思路：

框圖展示HBM、HBF 與 GPU 基于中介層的互聯結構
未來幾代 HBM 會繼續提升容量與帶寬，但遠水難解近渴，無法及時解決當前推理延遲問題 —— 這會讓 GPU 陷入顯存瓶頸（memory-bound），持續等待數據。
該論文指出， H3 架構非常適合解決推理過程中KV 緩存環節的痛點。 AI 模型推理時，會將上下文記憶序列（詞元與向量）以鍵值（KV）緩存的形式存放在 HBM 中。 H3 論文提到：
“最新的 Llama 4 大模型支持最長達1000 萬詞元的序列長度。 ”
這一規模需要高達5.4TB 的緩存， “僅存儲這些數據就需要數十張 GPU” 。
英偉達的 ICMSP 軟件可將 KV 緩存擴展至本地 NVMe SSD ，相比 HBM 容量耗盡后重新計算詞元與向量，能顯著加快處理速度。
而 HBF 的優勢在于：將 KV 緩存部署在更靠近 GPU的位置，省去 SSD 經由 PCIe 總線的傳輸延遲，提供比本地 SSD 更低的延遲、更高的帶寬訪問能力。
論文總結了 HBF 的預期優缺點：
優勢：
1.容量最高可達 HBM 的16 倍
2.帶寬與 HBM 接近
劣勢：
1.訪問速度更慢（納秒級 vs 微秒級）
2.寫入壽命更低
3.功耗最高比 HBM 高4 倍
由于 HBF 寫入壽命有限（僅約10 萬次擦寫循環），它最適合讀密集型負載。 H3 論文摘要明確指出：
“搭載 H3 的系統，在相同 GPU 數量下，能比純 HBM 系統同時處理更多請求，使其非常適合 LLM 推理中的大規模只讀場景，尤其是使用共享預計算鍵值緩存的場景。 ”
緩存增強生成（CAG）就是典型的這類負載：
“當大語言模型接收到查詢時，會讀取龐大的共享預計算 KV 緩存，完成計算后輸出結果。換言之，共享預計算 KV 緩存本質就是只讀的。 ”
H3 架構結構詳解

論文中的示意圖展示了完整設計：
·D2D：裸片間直連傳輸
·HBM 與 HBF 控制器分別位于各自的基底裸片上
·模型權重與共享預計算 KV 緩存存放在HBF
·生成式 KV 緩存及其他數據存放在HBM
為彌補 NAND 閃存延遲較高的問題，設計在 HBM 基底裸片中集成了延遲隱藏緩存（LHB），本質是一種預取緩沖。
H3 設計思路：GPU 邊緣（周邊）搭載 HBM 堆疊， GPU 與 HBM 均置于中介層上（對應圖 a）；HBM 與 HBF 以菊花鏈方式連接。
“在 HBM 基底裸片內部，通過地址解碼器與路由單元將內存訪問分為兩路：一路訪問 HBM ，另一路訪問 HBF 。如此一來， GPU 可通過HBM 基底裸片直接訪問 HBF 。 ”
簡單說：HBM 與 HBF 共同作為 GPU 的主存。示意圖中的全局統一編址方案顯示：
“GPU 主機使用統一地址空間，劃分不同區域分別訪問 HBM 與 HBF 。 ”
性能測試數據SK 海力士 H3 架構仿真測試環境：英偉達 Blackwell GPU（B200）+ 8 顆 HBM3E 堆疊 + 8 顆 HBF 堆疊。
性能對比純 HBM 方案：
·100 萬詞元場景：吞吐量提升 1.25 倍
·1000 萬詞元場景：吞吐量提升 6.14 倍
能效表現：相比僅配備 8 顆 HBM、無 HBF 的 Blackwell GPU ，每瓦性能提升 2.69 倍。
在 1000 萬詞元 KV 緩存測試中：HBM+HBF 方案可同時處理的查詢數（批次大?。 ?，是純 HBM 方案的18.8 倍。原本需要 32 張 GPU+HBM 才能完成的負載，借助 HBF 僅需2 張 GPU即可實現，大幅降低功耗。
文末摘要（論文官方摘要）大語言模型（LLM）推理需要海量內存來處理長序列，而高帶寬內存（HBM）的容量限制帶來了巨大挑戰。高帶寬閃存（HBF）是一種基于 NAND 閃存的新型存儲器件，擁有接近 HBM 的帶寬與遠超 HBM 的容量，但同時存在訪問延遲更高、寫入壽命更短、功耗更大等缺點。
本文提出H3 混合架構，旨在充分發揮 HBM 與 HBF 各自的優勢：將只讀數據存放在 HBF ，其他數據存放在 HBM 。
搭載 H3 的系統，在相同 GPU 數量下可處理更多并發請求，非常適合 LLM 推理中大規模只讀場景，尤其是使用共享預計算鍵值緩存的場景。
【IEEE論文：用HBF重塑HBM】仿真結果表明：采用 H3 的 GPU 系統，每瓦吞吐量最高提升 2.69 倍，驗證了 H3 在處理超大只讀數據 LLM 推理時的高性價比。

推薦閱讀

上一篇：蘋果 iOS 26.4 Beta 1 更新，新升級匯總來了~

下一篇：REDMI耳機新品曝光，滿電37小時續航