華為昇騰AI準萬億MoE模型技術突破

2025-06-10 02:28 人工智能 ai 華為算法

文章圖片

在人工智能技術競爭日趨激烈的全球背景下，華為昇騰AI計算平臺于2025年6月取得重大突破，成功訓練出參數規模達7180億的準萬億級混合專家模型（MoE）\"盤古Ultra MoE\" 。

這一成就不僅刷新了國產AI大模型的規模紀錄，更通過全棧自主創新驗證了中國在人工智能基礎設施領域的核心競爭力。此次技術突破涵蓋模型架構設計、訓練系統優化和國產化實踐三大維度，為全球AI產業提供了極具參考價值的技術范本。
【華為昇騰AI準萬億MoE模型技術突破】模型架構方面，盤古Ultra MoE創新性地采用Depth-Scaled Sandwich-Norm（DSSN）結構與TinyInit小初始化方法相結合的設計方案。 DSSN架構通過分層標準化策略有效控制梯度爆炸風險，在長達18TB數據量的訓練過程中將梯度突刺率降低51% ，而TinyInit技術則通過參數初始值的精細調控，顯著提升超大規模模型的訓練穩定性。

與此同時，研發團隊針對MoE模型特有的專家網絡動態分配難題，開發出EP-Group負載均衡優化算法，該算法能實時監測各專家網絡的計算負載，通過動態路由調整確保不同子模塊的資源利用率偏差不超過15% 。這種架構創新使得7180億參數的模型在僅激活約160億參數的情況下，即可達到傳統稠密模型千億級參數的效果，在SuperCLUE基準測試中，其衍生版本盤古Pro MoE（720億參數）已位列國內千億級以內模型榜首。
訓練系統優化是本次突破的另一核心。華為首次在昇騰CloudMatrix 384超節點集群上實現大稀疏比MoE模型的強化學習后訓練，單節點推理吞吐量達到35K Tokens/s ，標志著RL后訓練正式進入超節點時代。針對萬卡級集群的通信瓶頸，技術團隊重構了All-to-All通信協議棧，開發出昇騰NPU親和的算子優化策略，將跨節點通信帶寬占用降低37% 。在計算效率提升方面，通過自適應流水掩蓋技術和顯存壓縮算法的協同優化，使萬卡集群的模型算力利用率（MFU）從行業平均的30%提升至41% ，這意味著同等算力條件下可多完成36%的訓練任務。值得一提的是，模型創新性地采用MLA（多頭潛在注意力）與MTP（多令牌預測）混合架構，通過注意力機制的內存訪問優化，使得數學推理任務的求解速度提升38% ，同時減少30%的推理內存帶寬需求。
盤古Ultra MoE的誕生具有里程碑意義。該模型從底層昇騰910B NPU芯片、AscendCL編程框架到上層MindSpore訓練系統，實現全棧技術自主可控。在硬件層面，昇騰平臺通過3D封裝技術和chiplet互聯架構，構建起計算密度達256TFLOPS@FP16的異構計算單元；在軟件層面，自研的分布式訓練框架支持動態拓撲感知，能根據網絡狀況自動調整參數同步策略。這種端到端的自主創新體系，使得中國首次在超大規模AI訓練領域建立起完整的技術話語權。據內部測試數據顯示，在同等硬件規模下，昇騰平臺訓練萬億級模型的效率已達到國際主流平臺的92% ，且能耗成本降低19% ，為國產AI芯片的產業化應用奠定堅實基礎。

隨著盤古Ultra MoE模型的發布，華為不僅驗證了MoE架構在降低大模型計算成本方面的巨大潛力——其稀疏計算特性可使萬億級模型的推理能耗降低40-60% ，更探索出大模型技術落地的創新路徑。該模型已在國內氣象預測、藥物分子設計等領域完成初步應用驗證，其中在臺風路徑預測任務中，其72小時預測精度較傳統數值方法提升23% 。這項成果標志著中國AI產業已從技術跟跑進入并跑階段，為全球人工智能發展提供了重要的技術多樣性。

推薦閱讀

上一篇：不到50g也能長續航，頂級3950引擎+雙主控，這款RK K3值得買不？

下一篇：799元入門AI眼鏡能買嗎？我們替你體驗了一波李未可City