從靈衢協議,看懂AI計算3.0

從靈衢協議,看懂AI計算3.0

文章圖片

從靈衢協議,看懂AI計算3.0

文章圖片

從靈衢協議,看懂AI計算3.0

文章圖片

從靈衢協議,看懂AI計算3.0

文章圖片

從靈衢協議,看懂AI計算3.0

文章圖片

從靈衢協議,看懂AI計算3.0

文章圖片



公元前219年 , 秦始皇的南征大軍卡在了五嶺之間 。
糧草運不上去 , 士兵困在山中 , 前方百越未平 , 后方補給線幾近斷裂 。
長江水系與珠江水系被群山隔斷 , 水不通 , 路難行 , 再強的軍隊也寸步難移 。
兩千多年后 , 中國乃至全球的AI工程師們 , 竟站在了相似的十字路口 。

大模型參數動輒千億萬億 , 數據如洪流奔涌 , 但算力卻像被困在“五嶺”之間的秦軍 。 單張GPU算得再快 , 也扛不住全局需求;堆疊上千張卡組成集群 , 又陷入通信擁堵、調度混亂、能耗飆升的泥潭 。 卡再多 , 資源也無法高效流動 。
正是在這相似的困局中 , 人們開始重新思考:如何不靠蠻力開山 , 而用巧思引水?如何讓算力如活水 , 而非死湖?
答案悄然指向一條古老智慧的回響——靈渠 。

讓我們先從最基本的計算單元說起 。
現代GPU就像一艘性能卓越的獨木舟 。 以NVIDIA H100為例 , FP16算力達1979 TFLOPS , 內存帶寬3.35 TB/s 。 如果只是處理圖像分類、語音識別這些傳統任務 , 它就像在平靜湖面航行的輕舟 , 游刃有余 。
這一階段可以稱為AI計算1.0 , 單卡主體時代 。
那個時代 , 算力集中在單芯片上 。 算法優化的核心是挖掘單卡潛力 , 算子融合、內核優化、顯存復用 , 所有技術手段都圍繞如何讓這一張卡跑得更快展開 。 但模型規模受限于顯存 , 模型參數必須能完整地放入單卡顯存中 , 顯存容量就是模型規模的天花板 , 并且擴展方式簡單粗暴 。 當單卡不夠用時 , 解決方案直截了當——換更大的卡 。 從V100到A100 , 再到H100 , 每一代新品都帶來顯存和算力的雙重提升 。

那是一個摩爾定律依然有效的美好時代 , 硬件的迭代速度跟得上算法的增長需求 。
然而 , 2020年之后 , 風向變了 。
大模型訓練不再是湖面泛舟 , 而是橫渡太平洋 。 以GPT-4級別的模型為例 , 參數量約1.8萬億 , 是GPT-3的10倍以上;訓練數據超過13萬億token , 需要處理的知識量相當于人類全部書面記錄的數倍;訓練周期長達數月 , 消耗的計算資源相當于數萬個GPU年的工作量 。

模型參數量暴漲到萬億級別 , 單卡已經難以承載AI訓練的需求 。 一方面 , GPT-4級別的模型僅權重就需要約3.6TB顯存空間 , 單卡連完整模型的一角都無法承載 。 另一方面 , 萬億參數模型的前向傳播和反向傳播涉及海量矩陣運算 , 單卡算力再強 , 一次完整的訓練周期也以年為單位 , 而這顯然滯后于市場 。
獨木舟再快 , 也載不動智能時代的萬噸巨輪 。 那么 , 既然一艘船不夠 , 能否組建一支龐大的艦隊 , 齊頭并進?

既然獨木舟不行 , 那就組建船隊 。
現代AI超算中心動輒部署成千上萬張GPU 。 Meta的RSC集群擁有6080張A100 , 微軟為OpenAI構建的Azure AI超算據信集成上萬張H100 。 這標志著AI計算2.0 , 以大規模GPU集群為主體的時代到來 。
把算力堆到足夠大 , 就能訓練更大的模型 , 這聽起來很美好 。 理論上 , 萬卡集群的算力應該是單卡的萬倍 , 訓練時間應該線性縮短 。
但現實卻是 , 所有船只都堵在了幾個狹窄的閘口 。 實際算力利用率往往不到一半 , 剩下的資源都在等待、同步、重試中白白消耗 。
問題出在哪里?
當集群規模達到萬卡級別時 , 系統復雜度呈指數級增長 。 每一張GPU都是一個計算節點 , 節點之間需要頻繁交換梯度、參數、激活值 , 通信量隨著卡數增加而成倍放大 。

一張卡出問題可能拖累整個訓練任務 , 一個網絡擁塞可能讓上千張卡空轉等待 。 擴展效率隨著規模擴大而顯著下降 , 從百卡到千卡的效率損失可能是20% , 從千卡到萬卡的損失可能超過50% 。
這就是分布式訓練中的擴展性墻 , 規模越大 , 每增加一張卡帶來的收益越小 。
通信木桶短板效應同樣致命 。 集群的整體速度不取決于最快的節點 , 而受制于最慢的那個 。
一張GPU溫度過高降頻、一條網絡鏈路帶寬波動、一個交換機端口延遲抖動 , 都可能成為整個集群的瓶頸 。 在同步訓練中 , 所有節點必須等待最慢的那個完成當前步驟才能繼續 。

這就像古代漕運 , 千艘糧船齊發 , 卻共用幾座狹窄船閘 , 沒有統一水位調控 , 沒有智能分流機制 , 船越多 , 堵得越死 。 算力的“五嶺”并未消失 , 只是從單卡轉移到了集群內部 。
顯然 , 單純增加船只(GPU卡)的數量 , 無法根治航道(通信與調度)的擁堵問題 。
既然堆數量解決不了流通問題 , 我們是否該換一種思路 。 不是造更多船 , 而是修一條能貫通南北的水道?

兩千年前 , 秦人修靈渠 , 打通湘水與漓水 , 首次實現長江與珠江水系貫通 。 此舉非為造更多船 , 而是重構水的流動方式 , 讓資源自然匯聚、高效流轉 。
今天 , 靈衢協議以同樣的思路帶我們走向了AI計算3.0——超節點時代 。
超節點是指由多個計算節點通過高速互聯組成的邏輯上像一臺計算機的計算系統 。
這一思路最早可以追溯到英偉達的NVLink技術 。

NVLink的核心突破在于重新定義了芯片間的距離 。 傳統PCIe互聯帶寬有限、延遲較高 , 如同鄉間小路 , 難以承載海量數據流通 。 NVLink則如同在芯片之間修建高速公路 , 讓GPU之間的通信效率大幅提升 。 通過NVLink Switch的引入 , 跨服務器通信效率得以改善 , 數百張GPU可以緊密互聯 , 在軟件層面呈現為單一計算實體 。
NVLink的演進證明了高速互聯的價值 , 為超節點概念奠定了技術基礎 。 但隨著集群規模繼續擴張 , 一些局限也逐漸顯現 。 協議相對封閉 , 主要在自家生態內部優化;跨廠商兼容性有限 , 異構設備接入成本較高 。
用戶若采用NVLink , 通常需全面采用英偉達的GPU、軟件棧等 , 對單一廠商依賴較深 。 在擴展規模上 , 如NVL72超節點最大支持72張GPU卡 , 超大規模擴展時需結合InfiniBand或以太網等其他技術 。
當集群規模從百卡走向萬卡 , 企業不愿被單一供應商鎖定時 , 行業對開放互聯標準的呼聲便自然浮現 。 技術演進的邏輯向來如此 , 一種方案解決了舊問題 , 也會帶來新局限 , 而后繼者便在縫隙中生長 。
靈衢協議的出現正是對這一需求的回應 。
靈衢協議是華為自主研發的面向超節點的互聯協議 , 旨在解決大規模計算資源連接的互聯技術難題 。 萬卡超節點 , 一臺計算機 , 也就是說 , 通過該互聯協議 , 把數萬規模的計算卡 , 聯接成一個超節點 , 能夠像一臺計算機一樣工作、學習、思考、推理 。

靈衢的突破體現在對集群時代痛點的逐一化解 。
顯存不夠 , 就構建統一內存池、統一編址 , 讓多個GPU的顯存池化 。 萬億參數模型可以像存放在單一大內存中那樣被訪問 , 無需感知底層的分布式架構 。 這如同靈渠將兩條水系連通 , 水位統一 , 船只自然暢行 。
通信太慢 , 就用高速互聯協議突破帶寬時延瓶頸 。 靈衢采用總線級互聯設計 , 讓跨服務器通信效率接近片內通信 。 對等協作的架構讓各計算單元處于平等地位 , 能夠動態分配任務和負載 , 避免單點瓶頸拖累整體進度 。
高可靠性方面 , 單卡故障自動遷移 , 訓練不中斷 。 數千張GPU連續運行數周 , 硬件故障幾乎成為必然事件 。 靈衢協議確保故障發生時 , 任務可以無縫遷移到其他節點 , 確保大規模算力系統的穩定運行 , 就像漕運中的備用航道 , 一處阻塞 , 立刻分流 , 糧船不至滯留 。
并且 , 基于靈衢協議支持光電混合互聯 , Atlas 950 SuperPoD支持8192卡無收斂全互聯 , 這一規模是NVL72的百倍有余 。 這意味著 , 原本需要層層網絡轉換、多協議疊加的萬卡集群 , 現在可以通過一套統一的互聯協議直接打通 。
簡言之 , 流通的關鍵是讓水系變得更智慧 , AI計算的突破往往來自對連接的重新理解 。
水流淌了兩千年 , 依舊滋養大地 。 算力奔涌在芯片間 , 終將孕育智能 。 當困在技術的五嶺之間時 , 不妨回頭看看歷史 , 答案可能就在身后的古老智慧里 。
水之道 , 即算之道 。 通則達 , 阻則滯 。 此理千古不易 , 無論湘漓之水 , 還是0與1之流 。
【從靈衢協議,看懂AI計算3.0】

    推薦閱讀