Nvidia SCADA技術將存儲控制路徑轉移至GPU

2026-04-19 ai gpu 英偉達 ssd

【Nvidia SCADA技術將存儲控制路徑轉移至GPU】Nvidia SCADA方案正在為AI推理工作負載引入GPU控制的存儲IO ，相比GPUDirect ，它在小塊傳輸方面將更加快速。
什么是SCADA技術
SCADA是Nvidia在\"Storage-Next\"架構中提出的術語，全稱為Scaled Accelerated Data Access（規模化加速數據訪問）。這是一種存儲數據IO方案， GPU服務器中的GPU可以直接啟動和控制存儲IO 。這與Nvidia現有的GPUDirect協議形成對比，后者用于加速存儲IO 。
在最初的設計中， GPU被x86服務器視為輔助加速器，服務器控制著數據的流入和流出，同時擁有IO的控制路徑和數據路徑。 GPUDirect將數據路徑從x86 CPU中分離出來，通過RDMA技術實現GPU內存與NVMe驅動器之間的直接數據傳輸，但CPU仍然控制著控制路徑。而SCADA更進一步，將控制路徑也從CPU中分離出來。
AI訓練與推理的不同需求
AI訓練通常需要大批量數據傳輸，傳輸的控制路徑時間相對較小。而AI推理需要小塊IO（小于4KB），每次傳輸的控制路徑時間相對較大。 Nvidia的研究發現，讓GPU啟動這類傳輸將減少時間并加速推理過程。 SCADA正是這一發現的產物， Nvidia在2025年FMS論文中對此進行了詳細討論。
生態系統合作伙伴的支持
Nvidia正與存儲生態系統合作伙伴合作，將使用SCADA的SSD和控制器產品化。 SSD控制器制造商Marvell的閃存存儲產品營銷總監Chander Chadha表示：\"AI基礎設施的需求促使存儲公司開發專門支持GPU的SSD、控制器、NAND等技術，重點是為AI推理提供更高的IOPS（每秒輸入/輸出操作次數），這將與CPU連接驅動器有根本不同，后者更關注延遲和容量。 \"
Chadha解釋說：\"GPU在SCADA框架內啟動存儲事務，該框架圍繞內存語義構建\" ，這意味著SSD控制器必須響應加載和存儲請求。
他指出，當前的SSD在IOPS方面響應速度不夠快， \"對于小于4KB的數據集，導致PCIe總線利用率不足，使GPU缺乏數據并浪費周期。 \"GPU在推理工作負載中可能需要此類數據來維持超過1000個并行線程。相比之下，采用CPU啟動傳輸的AI訓練需要的并行線程較少。 Chadha說：\"GPU并行線程的數量要低得多——幾十個對幾千個——而且數據集規模更大。 \"
技術發展方向
更快的PCIe總線（如PCIe 6和7）將有所幫助，但SSD控制器也需要更新SCADA加速器功能和\"針對較小負載的最佳糾錯方案。 \"
Chadha預計將出現能夠處理兩種類型工作負載的SSD控制器， \"能夠同時處理PCIe和以太網流量。 \"他還表示， \"預計未來將看到與高帶寬閃存或CXL網絡接口相關的工作。 \"
美光的SCADA實踐
NAND和SSD供應商美光也積極參與SCADA開發。該公司推出了PCIe Gen 6 SSD——9650 ，具有\"小塊操作優化\"功能。 7.68TB型號可提供高達540萬隨機讀取IOPS 。美光在SC25展會上演示了44個這樣的SSD ，使用SCADA編程模型實現了2.3億IOPS 。
該設置使用連接到Broadcom PEX90000 PCIe Gen 6交換機的SSD ，安裝在H3 Platform Falcon 6048 PCIe Gen 6服務器中。該服務器包含三個Nvidia H100 PCIe Gen 5 GPU 。
美光表示，該系統\"展示了從1到44個SSD的線性擴展。 \"演示的2.3億最大IOPS數字非常接近44個驅動器聚合的540萬隨機讀取IOPS的理論最大值2.376億。
美光總結道：\"結合PCIe Gen6高性能SSD ，這種SCADA架構實現了向量數據庫、圖神經網絡和大規模推理流水線等工作負載的實時數據訪問。 \"
補充說明
SCADA縮寫傳統上用于監督控制和數據采集，指的是遙測領域。 Nvidia的用法雖然不同，但具有相似性。
Q&A
Q1：Nvidia SCADA技術相比GPUDirect有什么優勢？
A：SCADA技術將存儲控制路徑也轉移到GPU ，而GPUDirect只轉移了數據路徑。對于AI推理中常見的小于4KB的小塊數據傳輸， SCADA能夠顯著減少傳輸時間，提高推理速度，因為GPU可以直接啟動和控制存儲操作。
Q2：為什么AI推理和AI訓練對存儲IO的需求不同？
A：AI訓練通常需要大批量數據傳輸，控制路徑時間相對較小，并行線程數量較少（幾十個）。而AI推理需要小塊IO處理（小于4KB），每次傳輸的控制路徑時間相對較大，需要維持超過1000個并行線程，因此對IOPS性能要求更高。
Q3：美光在SCADA技術演示中取得了什么成果？
A：美光使用44個PCIe Gen 6 SSD 9650 ，在H3 Platform Falcon 6048服務器上演示了2.3億IOPS的性能，接近理論最大值2.376億。這證明了SCADA架構能夠實現從1到44個SSD的線性擴展，為向量數據庫和大規模推理流水線提供實時數據訪問。

推薦閱讀

上一篇：5年翻3倍！玻璃晉升半導體關鍵材料

下一篇：阿里云服務器部署速度跟不上AI需求，GPU配給優先大客戶