IEEE論文:用HBF重塑HBM

IEEE論文:用HBF重塑HBM

文章圖片

SK 海力士近期發表一篇 IEEE 論文 , 提出一種全新架構:在同一中介層(interposer) 上 , 將高帶寬內存(HBM)的速度與高帶寬閃存(HBF)的容量相結合 , 并直連 GPU , 用以加速 AI 大模型與智能體的推理處理 。
目前的 GPU , 以及即將推出的英偉達 Rubin 架構 , 均通過中介層連接 HBM , 為 GPU 核心提供高速、高帶寬的數據供給 。 但隨著 AI 大語言模型(LLM)規模不斷擴大 , HBM 容量不足的問題愈發突出 , 數據不得不從速度更慢的本地 SSD 中調取 , 顯著拉長了推理耗時 。
HBF 的訪問速度雖慢于 HBM , 但遠快于普通本地 SSD , 且容量更大 。 SK 海力士的H3 設計將其與 HBM 置于同一片中介層上 , 可讓 HBF 充當 HBM 的高速緩存 , 大幅縮短超大模型的處理時間 。
我們可以這樣理解這一思路:

框圖展示HBM、HBF 與 GPU 基于中介層的互聯結構
未來幾代 HBM 會繼續提升容量與帶寬 , 但遠水難解近渴 , 無法及時解決當前推理延遲問題 —— 這會讓 GPU 陷入顯存瓶頸(memory-bound) , 持續等待數據 。
該論文指出 , H3 架構非常適合解決推理過程中KV 緩存環節的痛點 。 AI 模型推理時 , 會將上下文記憶序列(詞元與向量)以鍵值(KV)緩存的形式存放在 HBM 中 。 H3 論文提到:
“最新的 Llama 4 大模型支持最長達1000 萬詞元的序列長度 。 ”
這一規模需要高達5.4TB 的緩存 , “僅存儲這些數據就需要數十張 GPU” 。
英偉達的 ICMSP 軟件可將 KV 緩存擴展至本地 NVMe SSD , 相比 HBM 容量耗盡后重新計算詞元與向量 , 能顯著加快處理速度 。
而 HBF 的優勢在于:將 KV 緩存部署在更靠近 GPU的位置 , 省去 SSD 經由 PCIe 總線的傳輸延遲 , 提供比本地 SSD 更低的延遲、更高的帶寬訪問能力 。
論文總結了 HBF 的預期優缺點:
優勢:
1.容量最高可達 HBM 的16 倍
2.帶寬與 HBM 接近
劣勢:
1.訪問速度更慢(納秒級 vs 微秒級)
2.寫入壽命更低
3.功耗最高比 HBM 高4 倍
由于 HBF 寫入壽命有限(僅約10 萬次擦寫循環) , 它最適合讀密集型負載 。 H3 論文摘要明確指出:
“搭載 H3 的系統 , 在相同 GPU 數量下 , 能比純 HBM 系統同時處理更多請求 , 使其非常適合 LLM 推理中的大規模只讀場景 , 尤其是使用共享預計算鍵值緩存的場景 。 ”
緩存增強生成(CAG) 就是典型的這類負載:
“當大語言模型接收到查詢時 , 會讀取龐大的共享預計算 KV 緩存 , 完成計算后輸出結果 。 換言之 , 共享預計算 KV 緩存本質就是只讀的 。 ”
H3 架構結構詳解


論文中的示意圖展示了完整設計:
·D2D:裸片間直連傳輸
·HBM 與 HBF 控制器分別位于各自的基底裸片上
·模型權重與共享預計算 KV 緩存存放在HBF
·生成式 KV 緩存及其他數據存放在HBM
為彌補 NAND 閃存延遲較高的問題 , 設計在 HBM 基底裸片中集成了延遲隱藏緩存(LHB) , 本質是一種預取緩沖 。
H3 設計思路:GPU 邊緣(周邊)搭載 HBM 堆疊 , GPU 與 HBM 均置于中介層上(對應圖 a);HBM 與 HBF 以菊花鏈方式連接 。
“在 HBM 基底裸片內部 , 通過地址解碼器與路由單元將內存訪問分為兩路:一路訪問 HBM , 另一路訪問 HBF 。 如此一來 , GPU 可通過HBM 基底裸片直接訪問 HBF 。 ”
簡單說:HBM 與 HBF 共同作為 GPU 的主存 。 示意圖中的全局統一編址方案顯示:
“GPU 主機使用統一地址空間 , 劃分不同區域分別訪問 HBM 與 HBF 。 ”
性能測試數據SK 海力士 H3 架構仿真測試環境:英偉達 Blackwell GPU(B200)+ 8 顆 HBM3E 堆疊 + 8 顆 HBF 堆疊 。
性能對比純 HBM 方案:
·100 萬詞元場景:吞吐量提升 1.25 倍
·1000 萬詞元場景:吞吐量提升 6.14 倍
能效表現:相比僅配備 8 顆 HBM、無 HBF 的 Blackwell GPU , 每瓦性能提升 2.69 倍 。
在 1000 萬詞元 KV 緩存測試中:HBM+HBF 方案可同時處理的查詢數(批次大?。 ?, 是純 HBM 方案的18.8 倍 。 原本需要 32 張 GPU+HBM 才能完成的負載 , 借助 HBF 僅需2 張 GPU即可實現 , 大幅降低功耗 。
文末摘要(論文官方摘要)大語言模型(LLM)推理需要海量內存來處理長序列 , 而高帶寬內存(HBM)的容量限制帶來了巨大挑戰 。 高帶寬閃存(HBF)是一種基于 NAND 閃存的新型存儲器件 , 擁有接近 HBM 的帶寬與遠超 HBM 的容量 , 但同時存在訪問延遲更高、寫入壽命更短、功耗更大等缺點 。
本文提出H3 混合架構 , 旨在充分發揮 HBM 與 HBF 各自的優勢:將只讀數據存放在 HBF , 其他數據存放在 HBM 。
搭載 H3 的系統 , 在相同 GPU 數量下可處理更多并發請求 , 非常適合 LLM 推理中大規模只讀場景 , 尤其是使用共享預計算鍵值緩存的場景 。
【IEEE論文:用HBF重塑HBM】仿真結果表明:采用 H3 的 GPU 系統 , 每瓦吞吐量最高提升 2.69 倍 , 驗證了 H3 在處理超大只讀數據 LLM 推理時的高性價比 。

    推薦閱讀