巨頭們的互連“軍備競賽”

巨頭們的互連“軍備競賽”

文章圖片

巨頭們的互連“軍備競賽”

本文由半導體產業縱橫(ID:ICVIEWS)編譯自eetimes
最大的挑戰在于AI仍在“學習如何學習” 。

AI工作負載的巨大計算需求 , 正推動著將GPU/AI加速器互連成集群的趨勢 , 使其作為單一單元運行以提高性能效率 。
作為AI加速器領域的領導者 , 英偉達(Nvidia)的NVLink互連技術已成為AI加速器最常用的接口 。 然而 , 直到最近 , NVLink一直是一項專有技術 , 僅在基于英偉達的平臺上可用 。 今年早些時候 , 英偉達通過NVLink Fusion計劃開放了NVLink互連 , 允許其他半導體平臺通過許可協議使用NVLink 。

與此同時 , 行業其他公司一直在擴展PCIe和以太網的能力以與NVLink競爭 , 同時還成立了超級加速器鏈接聯盟(Ultra Accelerator Link Consortium UALink) , 以提供NVLink的替代方案 。 關鍵問題是 , 哪些技術將能幸存下來?其中又有沒有任何一個能夠取代NVLink?
網絡發展簡史數據中心網絡中有兩個關鍵術語:縱向擴展(scale-up)和橫向擴展(scale-out) 。 歷史上 , 縱向擴展指的是在單個服務器機箱內擴展資源 , 而橫向擴展則指通過連接多個服務器來創建集群 。
然而 , 隨著向加速計算的過渡 , 縱向擴展的含義已變為在單個機柜內(甚至可能超越機柜)連接資源 , 使其作為單一系統運行 。 橫向擴展則指將這些計算資源連接成集群 , 跨越整個數據中心乃至數據中心之間 。 值得注意的是 , 英偉達最近引入了第三個關鍵網絡術語——橫向貫通(scale-across)——用于連接不同的數據中心 。
另一個歷史注腳是 , 科技行業通常會為新一代技術開發新的互連標準 。 原因是最新半導體的能力和應用程序的需求 , 往往超越了像IEEE(負責以太網標準)和PCI-SIG(負責PCIe標準)等標準組織的能力 , 它們無法足夠快地響應 。 然而 , 這些獨特的互連技術中 , 只有少數能夠經受時間的考驗 。
專有互連并非新鮮事連接計算資源的趨勢長期以來一直驅動行業走向專有解決方案 。 英特爾開發了其QPI , 隨后是UPI用于CPU間互連 , 以及Xe Link用于GPU互連架構;AMD開發了HyperTransport用于CPU間互連 , 后來又推出了Infinity Fabric來連接系統中所有的AMD計算資源;而英偉達則推出了NVLink作為GPU互連架構 , 并將其擴展至CPU 。 隨著包括超大規模云服務提供商的定制處理器和AI加速器在內的新AI解決方案日益增多 , 行業正在尋求一個統一的解決方案 。
縱向擴展網絡的成敗縱向擴展網絡最常見的選項包括:

  • PCIe:在PCIe Gen3和Gen4之間經歷了長達七年的間隔后 , PCI-SIG已加快步伐 , 推出了Gen5和Gen6以滿足系統日益增長的性能需求 。
  • 縱向擴展以太網(SUE):一種支持縱向擴展網絡的以太網版本 。
  • NVLink:由英偉達開發的快速且支持內存一致性的鏈接 。
  • UALink:AMD Infinity Fabric的擴展 , 由UALink聯盟支持 。
【巨頭們的互連“軍備競賽”】雖然每種互連都有其優點 , 但它們的局限性很可能決定其在縱向擴展網絡中的最終成敗 , 尤其是在性能至關重要的AI應用中 。
  • PCIe是行業標準 , 但由于其協議開銷 , 與其他縱向擴展互連相比 , 其性能有限且延遲較長 。
  • SUE基于以太網標準 , 但利用修改后的協議棧來降低延遲 。 盡管它提供了高可擴展性和通往極高性能的路線圖 , SUE的延遲仍高于其他互連 , 并且像PCIe一樣 , 它不提供內存一致性 。 此外 , SUE需要新的交換機芯片 , 目前只有博通的Tomahawk Ultra支持 。
  • UALink的獨特之處在于它受益于AMD的持續投資作為基礎技術 , 并且將運行在PCIe或SUE之上 , 但延遲更低 , 支持內存一致性 , 并得到了包括蘋果、英特爾和一些超大規模云服務提供商在內的大型科技公司的支持 。
  • NVLink現已發展到第五代 , 是理想的縱向擴展互連 , 提供高性能、低延遲和內存一致性 。 其主要限制一直是其專有性 。 應一些超大規模客戶的要求 , 英偉達推出了NVLink Fusion , 首個宣布的被許可方是富士通 , 將用于其服務器處理器 。
互連能否跟上AI的步伐?比較這些互連技術的一個更關鍵的問題是 , 它們是否有能力跟上創新的步伐 。 行業歷史表明 , 由聯盟制定的標準由于需要滿足所有參與者的多樣化需求 , 往往難以跟上技術發展的步伐 。
這可能成為PCIe的一個重要限制因素 。 SUE主要由博通驅動 , 可以保持快速的創新進度 , 但這使得行業在前沿領域僅依賴一家公司 。 只要AMD仍然是UALink的主要驅動力 , 它就有潛力保持可接受的步伐 。 然而 , 如果聯盟其他成員提出變更請求 , 或PCIe/SUE出現延誤 , 它可能會面臨延誤 。
相比之下 , NVLink由英偉達開發 , 其增強功能旨在滿足行業最前沿AI加速器的需求 。 NVLink也被明確設計為加速器互連 , 而非更通用的網絡互連 。 此外 , AI需求以及英偉達的Spectrum-X(橫向擴展)和Spectrum-XGS(橫向貫通)解決方案 , 很可能在不久的將來推動最新的共封裝光學技術應用于英偉達的機柜解決方案中 。
結語最大的挑戰在于AI仍在“學習如何學習” 。 基礎模型在規模和復雜性上持續增長 , 模型優化和執行技術正在迅速演變 , 硬件正以前所未有的速度發展 。 因此 , 對縱向擴展網絡的需求將繼續挑戰互連技術的極限 。 目前 , NVLink是AI的最佳解決方案 , 特別是在如果英偉達能以一種惠及整個行業的方式構建其許可協議 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀