AI超節點時代的交換機革命

AI超節點時代的交換機革命

文章圖片


【AI超節點時代的交換機革命】

AI大模型參數規模持續增長 , 單卡算力與顯存的物理上限 , 正倒逼AI訓練集群規模持續擴容 。 在這場AI算力軍備競賽中 , 網絡性能早已成為決定集群算力釋放效率的關鍵 。 對于超大參數規模的AI模型而言 , 更高的網絡帶寬 , 能夠直接大幅壓縮模型訓練的完成周期 。
01AI算力釋放的技術底座:RDMA要突破AI集群的網絡性能瓶頸 , RDMA技術已成為行業公認的解決方案 , 而這一切的起點 , 源于GPU通用計算時代的通信瓶頸破局 。
GPU Direct RDMA是2009年由Nvidia和Mellanox共同研發的軟硬件協同創新技術 。 當時GPU已經從圖形渲染轉向通用計算(GPGPU) , 成為HPC的核心加速器 。 GPU計算能力雖然在持續提升 , 但因為集群中不同節點之間的GPU間傳輸數據 , 仍需要CPU負責 , 通信存在瓶頸 , 所以GPU的計算能力的優勢受其拖累不能完全發揮 , 從而導致集群整體效率不高 。 NVIDIA當時清晰地認識到必須解決這個問題 , 所以開始與合作伙伴Mellanox一起探索GPU與網卡的直接通信的解決方案GPU Direct over InfiniBand 。 后續該技術方案逐漸成熟 , 并于2012年隨Kepler架構GPU和CUDA 5.0一起發布 , 并被正式命名為GPU Direct RDMA 。
在此之前 , 傳統數據中心的數據傳輸 , 始終受困于TCP/IP架構的原生缺陷 。 在傳統傳輸方案中 , 內存數據訪問與網絡數據傳輸分屬兩套語義集合 , 數據傳輸的核心工作高度依賴CPU:應用程序先申請資源、通知Socket , 再由內核態驅動程序完成TCP/IP報文封裝 , 最終通過NIC網絡接口發送至對端 。 數據在發送節點需要依次經過Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷貝 , 到達接收節點后 , 還要經過同等次數的反向內存拷貝 , 完成解封裝后才能寫入系統物理內存 。
這種傳統傳輸方式 , 帶來了三個問題:一是多次內存拷貝導致傳輸時延居高不下;二是TCP/IP協議棧的報文封裝全靠驅動軟件完成 , CPU負載極高 , 其性能直接成為傳輸帶寬、時延等性能的瓶頸;三是應用程序在用戶態與內核態之間的頻繁切換 , 進一步放大了數據傳輸的時延與抖動 , 嚴重制約網絡傳輸性能 。
RDMA(Remote Direct Memory Access , 遠程直接內存訪問)技術 , 正是為破解上述痛點應運而生 。 它通過主機卸載與內核旁路技術 , 讓兩個應用程序能夠在網絡上實現可靠的直接內存到內存數據通信:應用程序發起數據傳輸后 , 由RNIC硬件直接訪問內存并將數據發送至網絡接口 , 接收節點的NIC則可將數據直接寫入應用程序內存 , 全程無需CPU與內核的深度介入 。
憑借這些特性 , RDMA已成為高性能計算、大數據存儲、機器學習等對低延遲、高帶寬、低CPU占用有嚴苛要求的領域 , 核心的互聯技術之一 。 而RDMA技術協議的標準化 , 也為不同廠商設備的互聯互通提供了統一規范 , 推動技術從概念走向規模化商用 。 目前 , RDMA主流實現方案分為三類:InfiniBand協議、iWARP協議 , 以及RoCE協議(含RoCE v1與RoCE v2兩個版本) 。
隨著AI模型參數從數十億級躍升至數萬億級 , 單GPU內存容量持續擴容的同時 , 服務器間的數據傳輸效率 , 已成為決定系統擴展能力、模型訓練目標能否實現的關鍵要素 。 RDMA技術的價值也愈發凸顯 , 能否高效訪問其他服務器的內存與資源 , 直接決定了系統的可擴展性 , 而直接訪問遠端內存的能力 , 能直接提升AI模型的整體訓練性能 。 正是借助RDMA技術 , 數據才能快速送抵GPU , 最終有效縮短作業完成時間(Job Completion Time , 簡稱JCT) 。
02InfiniBand和以太網之爭在AI智算網絡的發展歷程中 , 機柜間互聯最早采用成熟的以太網方案 , 而隨著低時延需求的升級 , InfiniBand憑借性能優勢快速崛起 。 作為原生RDMA協議的代表 , InfiniBand由NVIDIA子公司Mellanox主導推動 , 能提供低于2微秒的極低傳輸時延 , 同時實現零丟包 , 堪稱RDMA領域的性能領導者 。

為了將InfiniBand的RDMA優勢遷移至以太網生態 , RoCE協議應運而生 。 其中RoCE v1僅能在二層子網內運行 , 而RoCE v2通過IP/UDP封裝實現了跨子網路由 , 大幅提升了部署靈活性 , 盡管約5微秒的時延仍高于原生InfiniBand , 卻讓以太網具備了支撐AI訓練高帶寬、低延遲需求的能力 。
為了撼動InfiniBand在AI領域的主導地位 , 2025年6月 , 博通、微軟、谷歌等行業巨頭聯合推出UEC 1.0規范 , 旨在重構以太網協議棧 , 使其性能逼近InfiniBand , 標志著以太網對InfiniBand發起了全面反擊 。 超以太網聯盟(Ultra Ethernet Consortium , UEC)明確 , UEC 1.0規范能在包含網卡、交換機、光纖、電纜組成的全網絡堆棧層級 , 提供高性能、可擴展、可互操作的解決方案 , 從而實現多供應商無縫集成 , 加速全生態創新 。 該規范不僅適配以太網與IP的現代RDMA能力 , 還支持數百萬級設備的端到端可擴展性 , 同時徹底規避了供應商鎖定的問題 。
目前 , 阿里巴巴、百度、華為、騰訊等國內科技企業均已加入UEC聯盟 , 共同推進標準落地 。 除了參與全球標準化建設 , 國內企業還在同步研發自主可控的橫向擴展架構 , 均以低延遲、零丟包為核心目標 , 直接對標InfiniBand的性能表現 。
從產業落地的維度來看 , 兩條技術路線的優劣勢十分清晰 。 RoCE v2方案依托以太網架構 , 不僅具備RDMA高帶寬、低時延的傳輸性能 , 還擁有極強的設備互聯兼容性與適配性 , 部署靈活且成本優勢顯著 。 相比InfiniBand , 基于以太網的RDMA方案 , 在低成本、高可擴展性上擁有巨大優勢 。
網絡可用性直接決定GPU集群算力的穩定性 , 而AI技術的爆發 , 正推動數據中心交換機向更高速率持續迭代 。 AI大模型參數量的指數級增長 , 帶來了算力需求的規模化提升 , 但大集群并不等同于大算力 。 為了壓縮訓練周期 , 大模型訓練普遍采用分布式訓練技術 , 而RDMA正是繞過操作系統內核、降低卡間通信時延的核心 , 目前主流落地的正是InfiniBand與RoCE v2兩大方案 。 其中InfiniBand方案時延更低 , 但成本偏高 , 且供應鏈高度集中于英偉達 。 根據Dell‘Oro Group的預測 , 到2027年 , 以太網在AI智算網絡的市場占比將正式超越InfiniBand 。
03超節點爆發 , 高端交換機迎來黃金發展期隨著 AI 大模型參數規模邁入萬億量級 , 算力需求已從單純 GPU 堆疊 , 轉向全維度系統架構重構 。 受單芯片物理功耗密度、互連帶寬及內存容量瓶頸制約 , 算力增長邊際效益持續遞減 。 當前研究與工程實踐均表明 , 系統級協同架構(如高帶寬域互聯)是突破單芯片性能上限的主要技術路徑 , 其根本動因在于單芯片物理極限已成為制約算力發展的核心瓶頸 。
當模型規模遠超單芯片算力與顯存容量 , 傳統分布式訓練面臨通信開銷激增、算力利用率大幅下滑等難題 。 在此背景下 , 依托高速無損互聯技術 , 將數十乃至上百顆 GPU 芯片邏輯整合為統一計算單元 , 形成對外等效的 “超級計算機” , 已成為全球主流 AI 基礎設施廠商與科研機構公認的下一代算力架構突破方向 。
AI 超節點的爆發 , 為交換機市場打開全新增量空間 。 相較于傳統服務器 , AI 服務器新增 GPU 模組 , 需通過專用網卡與服務器、交換機實現高效互聯 , 完成節點間高速通信 。 這使得 AI 服務器組網在傳統架構基礎上 , 新增后端網絡(Back End)層級 , 單臺服務器網絡端口數量顯著提升 , 直接拉動高速交換機、網卡、光模塊、光纖光纜等全產業鏈需求 。
與此同時 , 超節點規?;渴?, 加速網絡架構橫向擴展(Scale out) 。 萬卡、十萬卡乃至百萬卡級別的超大集群組網 , 催生海量高速交換機需求 。 隨著 AI 模型參數持續擴容 , 集群規模從百卡、千卡級快速向萬卡、十萬卡級躍遷 , 推動組網架構從 2 層向 3 層、4 層持續演進 , 進一步放大高速交換機市場缺口 。
全球AI產業的高速發展 , 讓AI集群網絡對組網架構、網絡帶寬、網絡時延提出了前所未有的嚴苛要求 , 也推動以太網交換機這一核心通信設備 , 朝著高速率、多端口、白盒化、光交換機等方向持續迭代升級 。 而以太網本身深厚的產業根基與龐大的生態廠商陣容 , 也讓其在AI網絡中的市場占比擁有持續提升的空間 。 盡管目前InfiniBand憑借低延遲、擁塞控制、自適應路由等機制 , 仍主導著AI后端網絡市場 , 但隨著以太網部署方案的持續優化 , 以及超以太網聯盟的生態加速完善 , 未來以太網方案的市場占比將持續攀升 , 直接帶動以太網交換機的需求增長 。
04全行業入局 , 國內外廠商搶灘AI交換機賽道AI交換機的巨大市場機遇 , 吸引了全球科技巨頭與國內廠商的全面布局 , 從芯片到整機、從傳統設備商到互聯網企業 , 一場圍繞AI交換機的技術與市場爭奪戰已然打響 。
國際巨頭中 , 英偉達的布局最為激進 。 其推出的Spectrum-x平臺 , 是一套專為超大規模集群場景優化的以太網方案 , 憑借這一產品 , 英偉達僅用不到三年時間 , 便在交換機這一傳統IT賽道實現了跨界突破 。 同時 , 英偉達已將下一代Rubin AI平臺全面轉向CPO(共封裝光學)架構 , 并宣布進入量產階段 , 讓CPO從實驗室概念 , 正式成為未來AI數據中心的“標準配置” 。
博通也在去年推出了全球首款102.4 Tbps 交換機芯片 Tomahawk 6 。 該系列單芯片提供 102.4 Tbps 的交換容量 , 是目前市場上以太網交換機帶寬的兩倍 。 Tomahawk 6 專為下一代可擴展和可擴展 AI 網絡而設計 , 通過支持 100G / 200G SerDes 和共封裝光學模塊(CPO) , 提供更高的靈活性 。 它提供業界最全面的 AI 路由功能和互連選項 , 旨在滿足擁有超過一百萬個 XPUs 的 AI 集群的需求 。
國內傳統設備廠商也快速跟進 , 接連推出旗艦級產品 。
華為于2025年發布了兩款旗艦產品:業界最高密的128×800GE 100T盒式以太交換機CloudEngine XH9330 , 憑借行業領先的高密端口設計 , 突破了AI集群的規模上限;業界首款128×400GE 51.2T液冷盒式以太交換機CloudEngine XH9230 , 助力企業打造綠色節能、超大規模的全液冷算力集群 。
紫光股份旗下新華三 , 于2024年率先發布1.6T智算交換機H3C S98258C-G , 支持全光網絡3.0解決方案 , 單端口速率突破1.6T , 整機交換容量達204.8T , 可滿足3.2萬臺AIGC節點的通信需求 。 該產品搭載自研智算引擎 , 時延可低至0.3微秒 , 通過了谷歌等國際客戶的驗證 , 成為其OCS整機核心供應商 。 此外 , 公司還推出了全球首款51.2T 800G CPO硅光數據中心交換機 , 為1.6T產品的技術迭代奠定了基礎 。
銳捷網絡完成了基于CPO技術的51.2T交換機商用互聯方案演示 , 該方案憑借超高集成度、顯著的能效提升與可維護性設計 , 完美適配AI訓練及超大規模計算集群的高速互聯需求 , 為未來800G和1.6T網絡升級提供了可行路徑 。 其51.2T CPO交換機采用博通Bailly 51.2Tbps CPO芯片 , 在4RU空間內實現了128個400G FR4光交換端口 , 大幅提升了設備端口密度與帶寬容量 , 核心亮點在于通過光引擎與交換芯片的共封裝 , 大幅縮短電互聯路徑 , 降低信號衰減與傳輸功耗 。
中興通訊推出了國產超高密度230.4T框式交換機 , 以及全系列51.2T/12.8T盒式交換機 , 性能處于行業領先水平 , 已在運營商、互聯網、金融等領域的百/千/萬卡智算集群實現規模商用 。
除了傳統交換機廠商 , 互聯網企業也紛紛下場 , 開啟了自研交換機的進程 , 成為賽道中不可忽視的重要力量 。
騰訊早在2022年便啟動了CPO交換機的研發 , 同年推出并點亮業界首款25.6T CPO數據中心交換機——Gemini 。 該產品集成12.8T光引擎 , 提供16個800G光接口 , 剩余12.8T交換容量通過面板32個QSFP112可插拔接口提供 。
字節跳動在火山引擎正式上線102.4T自研交換機 , 以此支撐新一代HPN 6.0架構 , 可滿足十萬卡級GPU集群的高效互聯需求 。 該交換機實現全端口LPO支持 , 在4U空間內部署了128個800G OSFP端口 。
阿里巴巴在云棲大會展出了自研的102.4T國產交換機 , 率先將3.2T NPO技術應用于新一代國產四芯片交換機 。 該設備單機集成4顆25.6T國產交換芯片 , 總交換容量達102.4T , 還可通過升級至4×102.4T芯片 , 平滑演進至409.6T平臺 。
相比線性驅動可插拔光模塊(LPO) , 近封裝光學(NPO)能提供更高的帶寬密度 , 同時降低對主芯片SerDes性能的要求 , 更利于產業生態發展;而相比共封裝光學(CPO) , NPO采用標準LGA連接器 , 保留了光模塊的開放解耦特性 , 避免了主芯片與光引擎的綁定 , 更易被終端用戶采納 。
05為什么互聯網企業要做交換機?互聯網企業紛紛下場自研交換機 , 并非偶然 , 而是技術趨勢與市場需求的共同驅動 。
技術層面 , 交換機白盒化的發展 , 為互聯網企業自研提供了基礎 。 白盒交換機實現了硬件與軟件的解耦 , 硬件由開放化組件構成 , 軟件則可由用戶或第三方自由選擇、定制 , 具備高靈活性、高可擴展性、低采購與運維成本的優勢 , 目前已在互聯網廠商與運營商網絡中廣泛應用 , 產業生態日趨成熟 。 銳捷網絡作為白盒交換機領域的早期布局者 , 便與阿里、騰訊、字節跳動等互聯網企業深度合作 , 通過JDM(聯合設計制造)模式參與下一代交換機研發 , 2024年接連中標多家頭部互聯網客戶的研發標 , 推動白盒交換機在互聯網數據中心的規?;渴?。 而白盒交換機的軟硬件解耦特性 , 大幅降低了自研的技術門檻 , 也成為大型互聯網企業降低建網成本的關鍵 。
市場層面 , 超大規模數據中心運營商面臨著與傳統企業完全不同的網絡需求:一方面 , 阿里、騰訊、字節等企業擁有數萬甚至數十萬級的服務器規模 , 對網絡的可擴展性、可運維性有極致要求;另一方面 , AI訓練集群尤其是萬卡級GPU集群 , 對網絡的低延遲、高帶寬有著嚴苛的定制化需求 。 傳統交換機廠商提供的標準化產品 , 難以完全匹配這些個性化、極致化的業務需求 , 最終促使互聯網企業走向自研之路 。
而自研交換機不僅能深度適配自身業務場景 , 實現網絡能力的定制化優化 , 又能大幅降低集群建設的總體擁有成本(TCO) , 在AI算力軍備競賽中 , 掌握網絡底層能力的主動權 。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀