中國AI高速路,華為給出開源開放方案

中國AI高速路,華為給出開源開放方案

文章圖片

中國AI高速路,華為給出開源開放方案

文章圖片

中國AI高速路,華為給出開源開放方案

文章圖片

中國AI高速路,華為給出開源開放方案

henry 發自 凹非寺
量子位 | 公眾號 QbitAI
上周 , 華為全聯接大會集中展示了華為最新最強的一系列創新 。
今年最受關注的自然是超節點技術帶來的算力風暴和突破 。 但超節點帶來的算力突破還不是全部 , 超節點架構帶動的開源開放 , 還會把這場風暴推得更深更遠 。
更加直觀類比來說 , 這是一場華為發起的“AI高速路”修路嘗試 , 開放硬件相當于開放了修路材料 , 開源軟件和靈衢組件相當于開源了修路方法和標準協議 。
華為用開源開放 , 給出了中國AI高速公路樞紐建設的方案——
一個惠及各行業全場景 , 技術紅利覆蓋大中小各類玩家的生態 。
大殺器超節點 , 華為決定開源開放在華為全聯接大會上 , 華為重磅發布創新的超節點架構 , 推出覆蓋數據中心到工作站的全場景超節點新品 。
Atlas 950 SuperPoD是面向超大型AI計算任務的最佳選擇 , 從基礎器件、協議算法到光電技術 , 實現了系統級的創新突破 。
其通過正交架構 , 讓Atlas 950實現零線纜電互聯 , 采用液冷接頭浮動盲插設計做到零漏液 , 獨創的材料和工藝讓光模塊液冷可靠性提升一倍 。
此外 , Atlas 950 SuperPoD創新的UB-Mesh遞歸直連拓撲網絡架構 , 支持單板內、單板間和機架間的NPU全互聯 , 以64卡為步長按需擴展 , 最大可實現8192卡無收斂全互聯 。
即便與英偉達產品對比 , Atlas 950超節點也優勢顯著 。
相比計劃明年下半年上市的NVL144 , 其規模、總算力、內存容量、互聯帶寬分別達到后者的56.8倍、6.7倍、15倍(1152TB)、62倍(16.3PB/s) 。
即便對標英偉達2027年計劃上市的NVL576 , 依舊遙遙領先 。

Atlas 850是業界首個企業級風冷AI超節點服務器 , 內部搭載8張昇騰NPU , 有效滿足企業模型后訓練、多場景推理等需求 。
Atlas 850支持多柜靈活部署 , 最大可形成128臺1024卡的超節點集群 , 是目前業內唯一可在風冷機房實現超節點架構的算力集群 , 企業無需改造現有風冷機房即可部署算力集群 。

Atlas 350標卡采用最新的昇騰950PR芯片 , 向量算力提升2倍 , 支持更細粒度的Cacheline訪問 , 在推薦推理場景可實現2.5倍性能提升 , 且單卡即可運行 。
Atlas 350支持靈衢端口互聯 , 實現算力、內存等資源池化 , 讓更大參數模型、更低時延應用可以在標卡上實現 。

TaiShan 950 SuperPoD是華為推出的業界首款通算超節點 , 具備百納秒級超低時延、Tb級超大帶寬和內存池化能力 , 能大幅提升數據庫、虛機熱遷移和大數據場景等業務性能 , 為通算性能提升開辟全新路徑 。
這一系列的超節點新品能實現從數據中心、企業部署、小型工作站的全場景覆蓋 , 從而在硬件層面協同用戶實現個性化部署 , 推動AI高速公路互通互聯 。
而就在超節點發布的同時 , 華為選擇了全面的開放和開源 。
首先是硬件層面的開放 。
華為宣布全面開放超節點技術 , 與產業界共享技術紅利 , 共同推動超節點技術走向普惠與協同創新 。
一方面 , 開放靈衢協議和超節點參考架構 , 允許產業界基于技術規范自研相關產品或部件 。
另一方面 , 全面開放超節點基礎硬件 , 包括NPU模組、風冷刀片、液冷刀片、AI標卡、CPU主板和級聯卡等不同形態的硬件 , 方便客戶和伙伴進行增量開發 , 設計基于靈衢的各種產品 。
其次是軟件層面的開源 。
超節點的運行離不開操作系統的深度支持 , 操作系統靈衢組件也將全部開源 , 組件代碼將陸續合入openEuler等多個上游操作系統開源社區 。
用戶可以根據實際需求 , 將部分或全部源代碼集成到現有操作系統中 , 自行迭代維護版本 , 也可以將整個組件直接合入現有操作系統 , 未來演進與開源社區版本同步 。
開源是驅動技術創新和產業進步的核心力量 , 昇騰CANN全面開源開放 , Mind系列組件也同步開源 , 并支持PyTorch、vLLM等業界開源社區 , 加速開發者自主創新 。
可以說 , 華為這一手硬件、一手軟件直接開源了個痛快!

華為為何要開源?
一方面 , 開源能夠和產業界、開發者社區基于超節點架構自研相關產品或部件、自定義調試調優、共享技術紅利 , 加速產業協同發展 。
另一方面 , 開源還有利于消費者按需取用、降低適配成本 , 打造面向行業的超節點場景化解決方案 。
華為董事、ICT BG CEO楊超斌表示:
華為將圍繞超節點架構持續創新 , 讓超節點技術不但用于大型數據中心 , 也可以用于企業級的數據中心和小型工作站 。 同時 , 堅持硬件開放 , 支持各個伙伴 , 靈活打造面向各個行業的超節點場景化解決方案 。 堅持軟件開源 , 讓開發者靈活高效創新 , 共建繁榮生態 。

這就意味著 , 超節點技術不再是少數大型數據中心的專屬利器 , 而是一個開放共享的算力生態 。
每個行業、每個企業、每位開發者都能根據自身需求 , 靈活搭建自己的算力“高速路” 。
無論是大型模型訓練、復雜推理任務 , 還是企業級應用場景 , 用戶都能按需獲取硬件和軟件能力 , 實現算力資源的高效利用和靈活擴展 。
當前 , 超節點已廣泛服務于互聯網、金融、運營商、電力、制造等行業 , 幫助各類企業提升算力效率和業務能力:
把各個計算單元、存儲單元等組件通過大帶寬、低時延互聯網絡平等互聯 。 統一通信協議 , 省去額外協議轉換開銷 。 統一內存編址 , 實現全局資源池化 , 使有效算力能夠隨集群規模線性擴展 。 通過靈衢協議的高可靠機制 , 并融入華為在通信上幾十年的積累 , 大幅提升集群可靠性 。
雖然多芯片互聯、大規模計算節點以取代單芯片成為行業共識 , 但傳統集群通過“服務器堆疊+以太網聯接”擴展算力 , 往往帶寬受限、時延高 , 而且隨著規模越大效率也會越低、可靠性難以保障 。
基于這一痛點 , 華為以超節點架構為“路基” , 通過靈衢互聯協議 , 把分散的服務器深度互聯 , 讓集群像一臺機器一樣學習、推理與協作 , 為AI大模型和行業應用提供真正高效、穩定、可擴展的算力底座 。
那么 , 什么是靈衢呢?
簡單來說 , 靈衢(UnifiedBus)是一個面向超節點的互聯協議 , 我們可以把它理解成一個開放共建的修路協議 。
依托靈衢的超節點架構具備資源池化、線性擴展、長穩可靠等關鍵特性 , 從而實現計算、存儲單元的大帶寬和低時延互聯 , 解決了傳統集群規模上升可靠性降低的痛點 。
不僅如此 , 靈衢還是開源的 。
這就意味著 , 不規定唯一的修路方式 , 協議全面公開 , 大家可以因地制宜 , 在不同路況的搭建合適的車道 。
結果就是——大家能自由開發系統、調度軟件 , 生態越跑越繁榮 。
開放共建:修路不獨占AI算力生態 , 本質上是 “修建數據傳輸與調度的高速路” 。
以英偉達的NVLink為例 , 它就像“工業園內部高速” , 服務GPU單機或機架內的數據傳輸——
這條路帶寬高、延遲低 , 卻因采用專有協議而相對封閉 。
編譯、傳輸、通信、驅動等規則均由其獨家制定 , 無法與其他生態互聯互通 。
而華為則通過靈衢協議與超節點架構 , 走出了一條開放之路:
它構建的不是孤立路段 , 而是一套統一標準的 “綜合交通樞紐”—— 從卡間互聯的 “超高速磁懸浮” , 到機柜內互聯的 “城市環線” , 再到機柜間互聯的 “全國高鐵網” , 均采用同一套協議規則 。
這意味著數據如同車輛 , 從起點到終點無需換道、等待 , 可全程暢通 。
同時 , 所有計算、內存、存儲資源在此被打散、池化 , 系統能自動匹配最高效的調度路徑 , 實現全局資源優化 。
更關鍵的是 , 華為不僅自己 “修路” , 還將這套技術標準向全社會公開 , 邀請硬件廠商(“建筑公司”)、芯片企業(“汽車制造商”)共同參與 , 按統一標準研發硬件、適配產品 , 打破 “園區式” 封閉生態的隔閡 , 推動整個國產算力生態做大做強 。
此前 , AMD、Intel、Apple 等企業發布的開源UALink , 雖有類似開放嘗試 , 但受限于軟硬件積淀不足 , 難以支撐大規模擴展的算力網絡 。
就像楊超斌在會上提到的:當前 , 上下文長度和訓練數據量激增 , 模型迭代速度加快、多任務協同與多輪推理、摩爾定律失效 , 行業的低時延等一系列要求 , 促使多芯片互聯、大規模計算成為必然 。
而想充分釋放百億億次計算和萬億參數AI模型的潛力 , 關鍵在于服務器集群中每個NPU間能否實現快速、無縫的通信 。
這些節點與集群 , 本質是數萬到數十萬個NPU 拼接成的 “高性能引擎” , 其協同編排能力 , 正是算力生態的關鍵 。
而華為的靈衢協議與超節點架構 , 不僅為開放硬件與開源軟件提供了可行方案 , 也在真正的可用性上提供了另一種選擇 。
如同華為輪值董事長徐直軍介紹 , 華為即將上線的Atlas 950超節點、Atlas 960超節點、TaiShan 950超節點以及Atlas 950 SuperCluster 50萬卡集群和Atlas 960 SuperCluster , 都基于靈衢實現了更大的算力規模、更高的帶寬和更低的時延 。

對比當前全球最大集群xAI Colossus , Atlas 950 SuperCluster的規模是其2.5倍 , 算力是其1.3倍 , 堪稱全球最強算力集群 。
而就像我們開頭提到的 , Atlas 950超節點較英偉達產品的性能也毫不遜色 。
除了性能上的絕對優勢 , 華為更以 “開放” 推動產業普惠 。
讓不同規模、需求的用戶都能搭建自己的 “AI 高速路” , 參與全場景算力生態建設 , 最終實現硬件、軟件、算法的共建共贏 。
而對于中國AI算力生態乃至整個AI產業來說 , 這更是一種安全可靠可持續的選擇 , 把AI建設在自己的基座之上 , 形成AI時代的標準和話語權 。
并且因為我們擁有最大的市場 , 這種生態一旦閉環 , 將會形成全新的創新飛輪 , 如同新能源汽車已經實現的一樣 。
要致富 , 先修路 。
AI建設也是一樣 , 但現在 , 華為率先提供了一條開源開放共贏的中國之路 。
— 完 —
量子位 QbitAI · 頭條號簽約
【中國AI高速路,華為給出開源開放方案】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀