AI超節點時代的交換機革命

2026-04-16 人工智能互聯網 ai gpu 交換機

文章圖片

【AI超節點時代的交換機革命】

AI大模型參數規模持續增長，單卡算力與顯存的物理上限，正倒逼AI訓練集群規模持續擴容。在這場AI算力軍備競賽中，網絡性能早已成為決定集群算力釋放效率的關鍵。對于超大參數規模的AI模型而言，更高的網絡帶寬，能夠直接大幅壓縮模型訓練的完成周期。
01AI算力釋放的技術底座：RDMA要突破AI集群的網絡性能瓶頸， RDMA技術已成為行業公認的解決方案，而這一切的起點，源于GPU通用計算時代的通信瓶頸破局。
GPU Direct RDMA是2009年由Nvidia和Mellanox共同研發的軟硬件協同創新技術。當時GPU已經從圖形渲染轉向通用計算（GPGPU），成為HPC的核心加速器。 GPU計算能力雖然在持續提升，但因為集群中不同節點之間的GPU間傳輸數據，仍需要CPU負責，通信存在瓶頸，所以GPU的計算能力的優勢受其拖累不能完全發揮，從而導致集群整體效率不高。 NVIDIA當時清晰地認識到必須解決這個問題，所以開始與合作伙伴Mellanox一起探索GPU與網卡的直接通信的解決方案GPU Direct over InfiniBand 。后續該技術方案逐漸成熟，并于2012年隨Kepler架構GPU和CUDA 5.0一起發布，并被正式命名為GPU Direct RDMA 。
在此之前，傳統數據中心的數據傳輸，始終受困于TCP/IP架構的原生缺陷。在傳統傳輸方案中，內存數據訪問與網絡數據傳輸分屬兩套語義集合，數據傳輸的核心工作高度依賴CPU：應用程序先申請資源、通知Socket ，再由內核態驅動程序完成TCP/IP報文封裝，最終通過NIC網絡接口發送至對端。數據在發送節點需要依次經過Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷貝，到達接收節點后，還要經過同等次數的反向內存拷貝，完成解封裝后才能寫入系統物理內存。
這種傳統傳輸方式，帶來了三個問題：一是多次內存拷貝導致傳輸時延居高不下；二是TCP/IP協議棧的報文封裝全靠驅動軟件完成， CPU負載極高，其性能直接成為傳輸帶寬、時延等性能的瓶頸；三是應用程序在用戶態與內核態之間的頻繁切換，進一步放大了數據傳輸的時延與抖動，嚴重制約網絡傳輸性能。
RDMA（Remote Direct Memory Access ，遠程直接內存訪問）技術，正是為破解上述痛點應運而生。它通過主機卸載與內核旁路技術，讓兩個應用程序能夠在網絡上實現可靠的直接內存到內存數據通信：應用程序發起數據傳輸后，由RNIC硬件直接訪問內存并將數據發送至網絡接口，接收節點的NIC則可將數據直接寫入應用程序內存，全程無需CPU與內核的深度介入。
憑借這些特性， RDMA已成為高性能計算、大數據存儲、機器學習等對低延遲、高帶寬、低CPU占用有嚴苛要求的領域，核心的互聯技術之一。而RDMA技術協議的標準化，也為不同廠商設備的互聯互通提供了統一規范，推動技術從概念走向規模化商用。目前， RDMA主流實現方案分為三類：InfiniBand協議、iWARP協議，以及RoCE協議（含RoCE v1與RoCE v2兩個版本）。
隨著AI模型參數從數十億級躍升至數萬億級，單GPU內存容量持續擴容的同時，服務器間的數據傳輸效率，已成為決定系統擴展能力、模型訓練目標能否實現的關鍵要素。 RDMA技術的價值也愈發凸顯，能否高效訪問其他服務器的內存與資源，直接決定了系統的可擴展性，而直接訪問遠端內存的能力，能直接提升AI模型的整體訓練性能。正是借助RDMA技術，數據才能快速送抵GPU ，最終有效縮短作業完成時間（Job Completion Time ，簡稱JCT）。
02InfiniBand和以太網之爭在AI智算網絡的發展歷程中，機柜間互聯最早采用成熟的以太網方案，而隨著低時延需求的升級， InfiniBand憑借性能優勢快速崛起。作為原生RDMA協議的代表， InfiniBand由NVIDIA子公司Mellanox主導推動，能提供低于2微秒的極低傳輸時延，同時實現零丟包，堪稱RDMA領域的性能領導者。

為了將InfiniBand的RDMA優勢遷移至以太網生態， RoCE協議應運而生。其中RoCE v1僅能在二層子網內運行，而RoCE v2通過IP/UDP封裝實現了跨子網路由，大幅提升了部署靈活性，盡管約5微秒的時延仍高于原生InfiniBand ，卻讓以太網具備了支撐AI訓練高帶寬、低延遲需求的能力。
為了撼動InfiniBand在AI領域的主導地位， 2025年6月，博通、微軟、谷歌等行業巨頭聯合推出UEC 1.0規范，旨在重構以太網協議棧，使其性能逼近InfiniBand ，標志著以太網對InfiniBand發起了全面反擊。超以太網聯盟（Ultra Ethernet Consortium ， UEC）明確， UEC 1.0規范能在包含網卡、交換機、光纖、電纜組成的全網絡堆棧層級，提供高性能、可擴展、可互操作的解決方案，從而實現多供應商無縫集成，加速全生態創新。該規范不僅適配以太網與IP的現代RDMA能力，還支持數百萬級設備的端到端可擴展性，同時徹底規避了供應商鎖定的問題。
目前，阿里巴巴、百度、華為、騰訊等國內科技企業均已加入UEC聯盟，共同推進標準落地。除了參與全球標準化建設，國內企業還在同步研發自主可控的橫向擴展架構，均以低延遲、零丟包為核心目標，直接對標InfiniBand的性能表現。
從產業落地的維度來看，兩條技術路線的優劣勢十分清晰。 RoCE v2方案依托以太網架構，不僅具備RDMA高帶寬、低時延的傳輸性能，還擁有極強的設備互聯兼容性與適配性，部署靈活且成本優勢顯著。相比InfiniBand ，基于以太網的RDMA方案，在低成本、高可擴展性上擁有巨大優勢。
網絡可用性直接決定GPU集群算力的穩定性，而AI技術的爆發，正推動數據中心交換機向更高速率持續迭代。 AI大模型參數量的指數級增長，帶來了算力需求的規模化提升，但大集群并不等同于大算力。為了壓縮訓練周期，大模型訓練普遍采用分布式訓練技術，而RDMA正是繞過操作系統內核、降低卡間通信時延的核心，目前主流落地的正是InfiniBand與RoCE v2兩大方案。其中InfiniBand方案時延更低，但成本偏高，且供應鏈高度集中于英偉達。根據Dell‘Oro Group的預測，到2027年，以太網在AI智算網絡的市場占比將正式超越InfiniBand 。
03超節點爆發，高端交換機迎來黃金發展期隨著 AI 大模型參數規模邁入萬億量級，算力需求已從單純 GPU 堆疊，轉向全維度系統架構重構。受單芯片物理功耗密度、互連帶寬及內存容量瓶頸制約，算力增長邊際效益持續遞減。當前研究與工程實踐均表明，系統級協同架構（如高帶寬域互聯）是突破單芯片性能上限的主要技術路徑，其根本動因在于單芯片物理極限已成為制約算力發展的核心瓶頸。
當模型規模遠超單芯片算力與顯存容量，傳統分布式訓練面臨通信開銷激增、算力利用率大幅下滑等難題。在此背景下，依托高速無損互聯技術，將數十乃至上百顆 GPU 芯片邏輯整合為統一計算單元，形成對外等效的 “超級計算機” ，已成為全球主流 AI 基礎設施廠商與科研機構公認的下一代算力架構突破方向。
AI 超節點的爆發，為交換機市場打開全新增量空間。相較于傳統服務器， AI 服務器新增 GPU 模組，需通過專用網卡與服務器、交換機實現高效互聯，完成節點間高速通信。這使得 AI 服務器組網在傳統架構基礎上，新增后端網絡（Back End）層級，單臺服務器網絡端口數量顯著提升，直接拉動高速交換機、網卡、光模塊、光纖光纜等全產業鏈需求。
與此同時，超節點規?；渴?，加速網絡架構橫向擴展（Scale out）。萬卡、十萬卡乃至百萬卡級別的超大集群組網，催生海量高速交換機需求。隨著 AI 模型參數持續擴容，集群規模從百卡、千卡級快速向萬卡、十萬卡級躍遷，推動組網架構從 2 層向 3 層、4 層持續演進，進一步放大高速交換機市場缺口。
全球AI產業的高速發展，讓AI集群網絡對組網架構、網絡帶寬、網絡時延提出了前所未有的嚴苛要求，也推動以太網交換機這一核心通信設備，朝著高速率、多端口、白盒化、光交換機等方向持續迭代升級。而以太網本身深厚的產業根基與龐大的生態廠商陣容，也讓其在AI網絡中的市場占比擁有持續提升的空間。盡管目前InfiniBand憑借低延遲、擁塞控制、自適應路由等機制，仍主導著AI后端網絡市場，但隨著以太網部署方案的持續優化，以及超以太網聯盟的生態加速完善，未來以太網方案的市場占比將持續攀升，直接帶動以太網交換機的需求增長。
04全行業入局，國內外廠商搶灘AI交換機賽道AI交換機的巨大市場機遇，吸引了全球科技巨頭與國內廠商的全面布局，從芯片到整機、從傳統設備商到互聯網企業，一場圍繞AI交換機的技術與市場爭奪戰已然打響。
國際巨頭中，英偉達的布局最為激進。其推出的Spectrum-x平臺，是一套專為超大規模集群場景優化的以太網方案，憑借這一產品，英偉達僅用不到三年時間，便在交換機這一傳統IT賽道實現了跨界突破。同時，英偉達已將下一代Rubin AI平臺全面轉向CPO（共封裝光學）架構，并宣布進入量產階段，讓CPO從實驗室概念，正式成為未來AI數據中心的“標準配置” 。
博通也在去年推出了全球首款102.4 Tbps 交換機芯片 Tomahawk 6 。該系列單芯片提供 102.4 Tbps 的交換容量，是目前市場上以太網交換機帶寬的兩倍。 Tomahawk 6 專為下一代可擴展和可擴展 AI 網絡而設計，通過支持 100G / 200G SerDes 和共封裝光學模塊（CPO），提供更高的靈活性。它提供業界最全面的 AI 路由功能和互連選項，旨在滿足擁有超過一百萬個 XPUs 的 AI 集群的需求。
國內傳統設備廠商也快速跟進，接連推出旗艦級產品。
華為于2025年發布了兩款旗艦產品：業界最高密的128×800GE 100T盒式以太交換機CloudEngine XH9330 ，憑借行業領先的高密端口設計，突破了AI集群的規模上限；業界首款128×400GE 51.2T液冷盒式以太交換機CloudEngine XH9230 ，助力企業打造綠色節能、超大規模的全液冷算力集群。
紫光股份旗下新華三，于2024年率先發布1.6T智算交換機H3C S98258C-G ，支持全光網絡3.0解決方案，單端口速率突破1.6T ，整機交換容量達204.8T ，可滿足3.2萬臺AIGC節點的通信需求。該產品搭載自研智算引擎，時延可低至0.3微秒，通過了谷歌等國際客戶的驗證，成為其OCS整機核心供應商。此外，公司還推出了全球首款51.2T 800G CPO硅光數據中心交換機，為1.6T產品的技術迭代奠定了基礎。
銳捷網絡完成了基于CPO技術的51.2T交換機商用互聯方案演示，該方案憑借超高集成度、顯著的能效提升與可維護性設計，完美適配AI訓練及超大規模計算集群的高速互聯需求，為未來800G和1.6T網絡升級提供了可行路徑。其51.2T CPO交換機采用博通Bailly 51.2Tbps CPO芯片，在4RU空間內實現了128個400G FR4光交換端口，大幅提升了設備端口密度與帶寬容量，核心亮點在于通過光引擎與交換芯片的共封裝，大幅縮短電互聯路徑，降低信號衰減與傳輸功耗。
中興通訊推出了國產超高密度230.4T框式交換機，以及全系列51.2T/12.8T盒式交換機，性能處于行業領先水平，已在運營商、互聯網、金融等領域的百/千/萬卡智算集群實現規模商用。
除了傳統交換機廠商，互聯網企業也紛紛下場，開啟了自研交換機的進程，成為賽道中不可忽視的重要力量。
騰訊早在2022年便啟動了CPO交換機的研發，同年推出并點亮業界首款25.6T CPO數據中心交換機——Gemini 。該產品集成12.8T光引擎，提供16個800G光接口，剩余12.8T交換容量通過面板32個QSFP112可插拔接口提供。
字節跳動在火山引擎正式上線102.4T自研交換機，以此支撐新一代HPN 6.0架構，可滿足十萬卡級GPU集群的高效互聯需求。該交換機實現全端口LPO支持，在4U空間內部署了128個800G OSFP端口。
阿里巴巴在云棲大會展出了自研的102.4T國產交換機，率先將3.2T NPO技術應用于新一代國產四芯片交換機。該設備單機集成4顆25.6T國產交換芯片，總交換容量達102.4T ，還可通過升級至4×102.4T芯片，平滑演進至409.6T平臺。
相比線性驅動可插拔光模塊（LPO），近封裝光學（NPO）能提供更高的帶寬密度，同時降低對主芯片SerDes性能的要求，更利于產業生態發展；而相比共封裝光學（CPO）， NPO采用標準LGA連接器，保留了光模塊的開放解耦特性，避免了主芯片與光引擎的綁定，更易被終端用戶采納。
05為什么互聯網企業要做交換機？互聯網企業紛紛下場自研交換機，并非偶然，而是技術趨勢與市場需求的共同驅動。
技術層面，交換機白盒化的發展，為互聯網企業自研提供了基礎。白盒交換機實現了硬件與軟件的解耦，硬件由開放化組件構成，軟件則可由用戶或第三方自由選擇、定制，具備高靈活性、高可擴展性、低采購與運維成本的優勢，目前已在互聯網廠商與運營商網絡中廣泛應用，產業生態日趨成熟。銳捷網絡作為白盒交換機領域的早期布局者，便與阿里、騰訊、字節跳動等互聯網企業深度合作，通過JDM（聯合設計制造）模式參與下一代交換機研發， 2024年接連中標多家頭部互聯網客戶的研發標，推動白盒交換機在互聯網數據中心的規?；渴?。而白盒交換機的軟硬件解耦特性，大幅降低了自研的技術門檻，也成為大型互聯網企業降低建網成本的關鍵。
市場層面，超大規模數據中心運營商面臨著與傳統企業完全不同的網絡需求：一方面，阿里、騰訊、字節等企業擁有數萬甚至數十萬級的服務器規模，對網絡的可擴展性、可運維性有極致要求；另一方面， AI訓練集群尤其是萬卡級GPU集群，對網絡的低延遲、高帶寬有著嚴苛的定制化需求。傳統交換機廠商提供的標準化產品，難以完全匹配這些個性化、極致化的業務需求，最終促使互聯網企業走向自研之路。
而自研交換機不僅能深度適配自身業務場景，實現網絡能力的定制化優化，又能大幅降低集群建設的總體擁有成本（TCO），在AI算力軍備競賽中，掌握網絡底層能力的主動權。
想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！

推薦閱讀

上一篇：龍蝦太難養？剛剛發布的SOLO獨立端，可能是你要的AI生產力

下一篇：筆記本電腦，面臨三大壓力