Nvidia SCADA技術將存儲控制路徑轉移至GPU

Nvidia SCADA技術將存儲控制路徑轉移至GPU

【Nvidia SCADA技術將存儲控制路徑轉移至GPU】Nvidia SCADA方案正在為AI推理工作負載引入GPU控制的存儲IO , 相比GPUDirect , 它在小塊傳輸方面將更加快速 。
什么是SCADA技術
SCADA是Nvidia在\"Storage-Next\"架構中提出的術語 , 全稱為Scaled Accelerated Data Access(規模化加速數據訪問) 。 這是一種存儲數據IO方案 , GPU服務器中的GPU可以直接啟動和控制存儲IO 。 這與Nvidia現有的GPUDirect協議形成對比 , 后者用于加速存儲IO 。
在最初的設計中 , GPU被x86服務器視為輔助加速器 , 服務器控制著數據的流入和流出 , 同時擁有IO的控制路徑和數據路徑 。 GPUDirect將數據路徑從x86 CPU中分離出來 , 通過RDMA技術實現GPU內存與NVMe驅動器之間的直接數據傳輸 , 但CPU仍然控制著控制路徑 。 而SCADA更進一步 , 將控制路徑也從CPU中分離出來 。
AI訓練與推理的不同需求
AI訓練通常需要大批量數據傳輸 , 傳輸的控制路徑時間相對較小 。 而AI推理需要小塊IO(小于4KB) , 每次傳輸的控制路徑時間相對較大 。 Nvidia的研究發現 , 讓GPU啟動這類傳輸將減少時間并加速推理過程 。 SCADA正是這一發現的產物 , Nvidia在2025年FMS論文中對此進行了詳細討論 。
生態系統合作伙伴的支持
Nvidia正與存儲生態系統合作伙伴合作 , 將使用SCADA的SSD和控制器產品化 。 SSD控制器制造商Marvell的閃存存儲產品營銷總監Chander Chadha表示:\"AI基礎設施的需求促使存儲公司開發專門支持GPU的SSD、控制器、NAND等技術 , 重點是為AI推理提供更高的IOPS(每秒輸入/輸出操作次數) , 這將與CPU連接驅動器有根本不同 , 后者更關注延遲和容量 。 \"
Chadha解釋說:\"GPU在SCADA框架內啟動存儲事務 , 該框架圍繞內存語義構建\" , 這意味著SSD控制器必須響應加載和存儲請求 。
他指出 , 當前的SSD在IOPS方面響應速度不夠快 , \"對于小于4KB的數據集 , 導致PCIe總線利用率不足 , 使GPU缺乏數據并浪費周期 。 \"GPU在推理工作負載中可能需要此類數據來維持超過1000個并行線程 。 相比之下 , 采用CPU啟動傳輸的AI訓練需要的并行線程較少 。 Chadha說:\"GPU并行線程的數量要低得多——幾十個對幾千個——而且數據集規模更大 。 \"
技術發展方向
更快的PCIe總線(如PCIe 6和7)將有所幫助 , 但SSD控制器也需要更新SCADA加速器功能和\"針對較小負載的最佳糾錯方案 。 \"
Chadha預計將出現能夠處理兩種類型工作負載的SSD控制器 , \"能夠同時處理PCIe和以太網流量 。 \"他還表示 , \"預計未來將看到與高帶寬閃存或CXL網絡接口相關的工作 。 \"
美光的SCADA實踐
NAND和SSD供應商美光也積極參與SCADA開發 。 該公司推出了PCIe Gen 6 SSD——9650 , 具有\"小塊操作優化\"功能 。 7.68TB型號可提供高達540萬隨機讀取IOPS 。 美光在SC25展會上演示了44個這樣的SSD , 使用SCADA編程模型實現了2.3億IOPS 。
該設置使用連接到Broadcom PEX90000 PCIe Gen 6交換機的SSD , 安裝在H3 Platform Falcon 6048 PCIe Gen 6服務器中 。 該服務器包含三個Nvidia H100 PCIe Gen 5 GPU 。
美光表示 , 該系統\"展示了從1到44個SSD的線性擴展 。 \"演示的2.3億最大IOPS數字非常接近44個驅動器聚合的540萬隨機讀取IOPS的理論最大值2.376億 。
美光總結道:\"結合PCIe Gen6高性能SSD , 這種SCADA架構實現了向量數據庫、圖神經網絡和大規模推理流水線等工作負載的實時數據訪問 。 \"
補充說明
SCADA縮寫傳統上用于監督控制和數據采集 , 指的是遙測領域 。 Nvidia的用法雖然不同 , 但具有相似性 。
Q&A
Q1:Nvidia SCADA技術相比GPUDirect有什么優勢?
A:SCADA技術將存儲控制路徑也轉移到GPU , 而GPUDirect只轉移了數據路徑 。 對于AI推理中常見的小于4KB的小塊數據傳輸 , SCADA能夠顯著減少傳輸時間 , 提高推理速度 , 因為GPU可以直接啟動和控制存儲操作 。
Q2:為什么AI推理和AI訓練對存儲IO的需求不同?
A:AI訓練通常需要大批量數據傳輸 , 控制路徑時間相對較小 , 并行線程數量較少(幾十個) 。 而AI推理需要小塊IO處理(小于4KB) , 每次傳輸的控制路徑時間相對較大 , 需要維持超過1000個并行線程 , 因此對IOPS性能要求更高 。
Q3:美光在SCADA技術演示中取得了什么成果?
A:美光使用44個PCIe Gen 6 SSD 9650 , 在H3 Platform Falcon 6048服務器上演示了2.3億IOPS的性能 , 接近理論最大值2.376億 。 這證明了SCADA架構能夠實現從1到44個SSD的線性擴展 , 為向量數據庫和大規模推理流水線提供實時數據訪問 。


    推薦閱讀