性能提升2.69倍!SK海力士已進行HBM、HBF混合架構仿真測試

性能提升2.69倍!SK海力士已進行HBM、HBF混合架構仿真測試

文章圖片

性能提升2.69倍!SK海力士已進行HBM、HBF混合架構仿真測試

SK海力士在報告中指出 , 新架構特別適合人工智能推理 。



SK海力士發布了一種以高帶寬閃存(HBF)為核心的新型半導體架構概念 。 HBF是一種堆疊多個NAND閃存芯片的存儲技術 。 據韓京新聞報道 , 該公司最近在電氣電子工程師協會(IEEE)上發表的一篇論文中詳細闡述了這一名為“H3”的概念 。 H3指的是一種混合架構 , 它將HBM和HBF集成到單一設計中 。
正如報告指出的那樣 , H3 架構將 HBM 和 HBF 都放置在負責計算的 GPU 旁邊 , 而目前的 AI 芯片(包括 NVIDIA 計劃于今年下半年發布的 Rubin 平臺)中 , 只有 HBM 被放置在 GPU 旁邊 。

為了評估H3設計的可行性 , SK海力士進行了仿真測試 。 在這些測試中 , 該公司配置了8個第五代HBM(HBM3E)堆棧和8個HBF堆棧 , 并搭配NVIDIA最新的GPU Blackwell(B200) 。 正如報告所強調的 , 仿真結果表明 , 與僅依賴HBM的配置相比 , 每瓦性能提升高達2.69倍 。
采用 HBF 的 H3 架構或可提升 AI 推理性能值得注意的是 , 正如報告所指出的 , H3架構被認為特別適合人工智能推理 , 而人工智能推理正日益成為一個重要的領域 。 推理指的是模型進行推理并生成響應的能力 , 而這一過程的核心要素是KV緩存 , 它會在用戶交互期間臨時存儲對話上下文 。
報告解釋說 , 隨著人工智能模型日趨復雜 , KV緩存的需求不斷增長 , 給HBM和GPU帶來了巨大壓力 , 可能限制整體計算效率 。 通過部署HBF作為額外的高容量存儲層來吸收KV緩存 , GPU和HBM可以擺脫存儲開銷 , 專注于高速處理和生成新的輸出 。
SK海力士還模擬了HBF處理高達1000萬個令牌的海量KV緩存的場景 。 報告顯示 , 模擬結果表明 , 與僅使用HBM的配置相比 , 該系統處理并發查詢(批處理大?。 ┑哪芰μ嶸爍嘰?8.8倍 。 以前需要32個GPU才能完成的工作負載 , 現在只需兩個GPU即可完成 , 從而顯著提高了能效 。
HBF商業化面臨的技術挑戰通過這份報告 , 該公司強調了HBF作為下一代人工智能存儲解決方案的潛力 。 然而 , 正如報告所指出的 , 在商業化之前仍存在一些挑戰 。 盡管NAND閃存具有高存儲密度 , 但其寫入速度相對較慢 , 尤其是在添加或修改數據時 , 仍然是一個關鍵的限制因素 。
即使HBF主要用于混合架構中的讀取密集型工作負載 , 寫入性能對于KV緩存應用也變得越來越重要 。 報告指出 , 克服這一限制需要更先進的設計 , 包括顯著提升HBF堆棧底部基極芯片的控制器性能 。
盡管如此 , 隨著HBF在人工智能內存領域發展勢頭強勁 , 標準化工作也在不斷加強 。 據Sisa Journal報道 , 三星電子和SK海力士已與SanDisk簽署諒解備忘錄(MOU) , 共同推進HBF標準化 , 并正通過聯合聯盟推進相關工作 。 兩家公司都在積極研發HBF產品 , 目標是在2027年實現商業化 。
此前 , 韓國科學技術院(KAIST)電氣工程學院金正浩教授(HBF領域的主要倡導者)稱 , 12年后 , 高帶寬閃存(HBF)市場可能會比高帶寬存儲器(HBM)市場更大 。 他設想高帶寬內存 ( HBM ) 作為 GPU 加速器的高速數據緩存層 , 并由一層 HBF 為其提供數據 , 而速度較慢但容量更高的聯網 SSD 存儲則為 HBF 層提供數據 。
英偉達發布了推理上下文內存存儲平臺 (ICMSP ) , 該平臺利用其 Dynamo 和 NIXL 軟件為存儲在 KV 緩存中的 AI 推理令牌提供托管內存空間 , 該緩存覆蓋 HBM 和 BlueField-4 連接的 SSD 。 直觀來看 , 同樣的雙層軟件架構可以擴展到覆蓋 HBM-HBF-BlueField-4 連接的 SSD 的三層結構 。聯網的外部存儲設備將連接到 BlueField-4 SSD 層 , 并擁有通往 GPU 的清晰路徑 , 無需經過主機 X86 處理器及其 DRAM 。 金正浩教授還討論了一款容量為512GB、帶寬為1.638TB/s的HBF單元 。 該容量相當于2TB(250GB)的3D NAND芯片 , 例如SK海力士采用其321層三串3D NAND技術制造的芯片 。 我們只需堆疊兩個這樣的芯片即可制造出一個512GB容量的HBF芯片 。 這樣的雙層芯片總共包含 642 層 3D NAND , 分為六個組件串 , 并且需要進行制造 , 使得上層不會使下層變形 。
未來 , GPU等算力卡將可能形成更明確的訓練和推理分工 , 進一步降低 AI 推理門檻 。 同時 , HBF的出現 , 也促使存儲廠商加速技術創新 , 研發周期從十幾年縮短到 3-5 年 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【性能提升2.69倍!SK海力士已進行HBM、HBF混合架構仿真測試】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀