深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

文章圖片

深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

文章圖片

深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

文章圖片

深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容

文章圖片



編輯|澤南
近日 , 剛剛 IPO 的國產 GPU 公司沐曦股份 , 完成了自上市后的首個重大技術發布 。
該公司旗下的 MXMACA 軟件棧(MACA)正式發布了全新版本 3.3.0.X , 沐曦發布了一份 23 頁的技術報告 , 機器之心圍繞該報告對 MACA 進行解讀 。

在全自主硬件體系的支撐下 , 沐曦已經構建起「全棧軟件」體系 , 其對于提升計算引擎的效率起到了關鍵作用 。 同時 , 新一代 MACA 宣告了沐曦軟件生態的一次重要跨越 , 它的核心理念 , 是如何讓國產 GPU 真正「用起來」 。
GPU 生態適配的「萬能接口」
MACA(MetaX Accelerated Computing Architecture)被定義為「異構計算軟件棧核心計算平臺、引擎、運維工具和規范化操作范本」 , 內置了全套自研工具鏈 , 涵蓋編譯器、性能分析工具、格式轉換組件等 , 可實現多語言支持、算子自動優化與跨框架平滑適配 。
它面向沐曦的曦云 C 系列、曦思 N 系列 GPU 研發 , 其定位是連接沐曦自研 GPU 硬件與上層應用生態的關鍵紐帶 。

MACA 承擔著連接硬件算力單元與上層應用生態的紐帶作用 。 據介紹 , 它覆蓋了 AI 芯片工作流程的底層驅動、用戶態接口、編譯器、算子適配、訓練框架、推理框架、行業場景優化等全鏈路能力 。
在芯片行業 , 硬件決定算力基礎 , 而軟件棧則決定了算力能否被有效釋放 。 長期以來 , 國產 GPU 落地面臨的最大挑戰并非純粹的性能 , 而是生態兼容問題 ——AI 開發者早已習慣在英偉達的 CUDA 生態中開發新技術、構建應用 , 遷移到新的硬件上意味著高昂的遷移成本 。
MACA 3.3.0.X 直擊這一痛點 , 它是一套「生態強化版」軟件棧 , 聚焦場景的深度適配 , 涵蓋底層基礎能力的迭代與主流 AI 框架、大模型訓練推理、搜索、廣告、推薦、科學計算等多維度生態適配 , 其核心邏輯是構建一個「萬能接口」 , 讓現有生態能夠近乎無縫地遷移到沐曦平臺上 。
具體有多萬能?技術報告顯示 , 沐曦團隊對 GitHub 上大量 CUDA 項目進行了適配測試 。 他們篩選了 4490 個「含 CUDA 關鍵字」的活躍代碼倉庫進行驗證 , 按應用領域包括 AI 模型 / 應用、高性能并行計算、氣象模擬、計算化學等場景 。
測試結果顯示 , 4173 個項目可以直接適配運行 , 成功率高達 92.94% 。 僅有 260 個項目需要微小調整 , 占比不足 6% , 且修改主要涉及編譯配置優化 , 而非核心業務邏輯 。

這意味著 , 幾乎任何現有的 CUDA 項目都可以近乎「開箱即用」地遷移到沐曦平臺上 , 目前在市面上 , 還沒有第二家能夠做到 。
在 MACA 的這一通適配之后 , GitHub 上海量的 AI、數據處理、科學計算應用工具 , 可以快速適配在國產異構計算平臺上 。 對于開發者而言 , 這就意味著面對國產 AI 硬件體系時 , 學習成本和遷移工作量可以大幅降低 。
框架兼容
擁抱主流 AI 開發生態
除了能夠無縫遷移已有的項目工作 , 新版本 MACA 也強調了對于 AI 框架兼容的特性 , 它能夠幫助開發者構建和探索新技術 。
在 AI 開發領域 , 框架兼容能力決定了平臺的可用性 。 MACA 3.3.0.X 版本完成了對 PyTorch 2.8 的深度適配 , 覆蓋了全部 2650 個核心算子(其中 GPU 算子 2410 個) 。 涵蓋從基本算術運算、線性代數操作、卷積 / 池化類算子、規約操作、隨機采樣、索引與切片快速傅里葉變換(FFT)、Attention 等所有關鍵算子類別 。 它支持多種數據形態 , 保障了算子能力的完整性與場景適配性 。
除了 PyTorch , MACA 還兼容 TensorFlow、PaddlePaddle、JAX 等主流開源框架 , 以及 Megatron-LM、DeepSpeed 等大模型訓練框架 , 在推理端支持 vLLM、SGLang、Transformers、KTransformer 等推理框架 。
在操作系統方面 , MACA 兼容了 Ubuntu、CentOS、RHEL、openEuler、Anolis OS 、銀河麒麟等主流 Linux 發行版 。 它同時完整支持混合精度訓練、分布式訓練、torch.compile 編譯優化與圖模式任務下發的深度集成等關鍵特性 。
簡單來說 , 這一兼容性列表幾乎涵蓋了當前 AI 開發的所有主流工具鏈 。 技術報告中還特別強調 , 這種適配是「無需調整工程構建邏輯 , 即可實現現有模型的無縫使用」 。
搭配性能分析與優化工具鏈 , MACA 配合沐曦 GPU 在核心場景上的性能可以對標主流 GPU 水平 。
MACA 不僅僅是一個兼容層 , 而是一個完整的軟件棧 。 它包含了開發效率引擎層和垂直場景賦能層兩大核心部分 。
在開發效率引擎層 , MACA 提供了一系列高性能算子庫 , 如針對矩陣計算的 mcBLAS、針對深度神經網絡的 mcDNN、針對注意力機制的 mcFlashAttention 等 。

MACA 套件中開發效率引擎 , 其旨在降低異構開發門檻 。
這些工具針對沐曦 GPU 的多卡拓撲進行了專門優化 , 編譯器工具支持 MACA C/C++、Fortran 等語言 , 能將高級語言轉化為高效的可執行程序 。
在垂直場景賦能層 , MACA 針對 AI 與科學計算兩大方向 , 通過針對性的優化策略與框架適配解決需求 。
其中在 AI 領域 , MACA 的訓練優化兼容 PyTorch、BMTrain 等框架 , 通過硬件流水線并行實現通信與計算重疊 , 優化分布式并行策略 。 推理優化則適配 ONNX Runtime、vLLM、SGLang 等框架 , 采用 INT8 量化、KVCache 跨卡管理提升長序列處理效率 。
在科學計算領域 , MACA 通過重構 MPI、BLAS 庫提升內存帶寬 , 定向移植 OpenFOAM、GROMACS 等科學計算框架 , 結合容器化部署方案 , 能夠確保算力能高效支撐流體仿真、分子動力學等垂直場景 。

此外 , MACA 的性能分析工具提供了系統級追蹤和核函數指標采集功能 , 能夠幫助開發者定位計算瓶頸 。 全棧工具鏈的完整性 , 使得開發者能夠在沐曦平臺上完成從開發到部署的全流程工作 。
此種能力的背后 , 是沐曦構建的大模型訓推一體化能力 。
算力到生產力的轉化
MACA-3.3.0.X 版本為開發者們構建起了一套全流程的一體化算力支撐底座 , 通過軟硬件協同、核心算子優化以及分布式架構的升級 , 旨在實現訓推效能的跨越式突破 。
這一底座的基礎是沐曦自研的 GPGPU , 其高算力密度與高內存帶寬確保了單卡能夠高效處理千億參數模型 。 通過自研的 MetaXLink 高速互連技術 , 沐曦在硬件層面構建了低時延、高帶寬的分布式通信網絡 , 使得算力供給擴展至萬卡級集群 , 為 AI 大模型的超大規模分布式訓練與推理奠定了基礎 。
在軟件層面 , MACA 構建起端到端的協同體系 。 其首要特點是極致的生態兼容性 , 除此之外 , MACA 通過拓撲感知的 MCCL 高性能通信庫和自研的編譯器優化模塊 , 能夠智能地優化多機多卡的數據通信策略 , 實現算子自動融合、循環展開等編譯級優化 , 深度挖掘出硬件底層潛力 。

MACA 套件大模型推理優化技術 。
一體化設計的重要優勢 , 在于打破訓練與推理之間的場景壁壘 。 MACA 支持模型訓練后的輕量化轉換與直接部署 , 無需二次適配 。 通過統一的模型格式與接口規范 , 它實現了「訓練 - 微調 - 推理 - 部署」全流程鏈路貫通 , 大幅縮短了大模型從技術研發到業務落地的周期與成本 。
在技術層面上 , MACA-3.3.0.X 版本針對幾個關鍵瓶頸進行了深度調優 。
在關鍵算子上 , MACA 針對 FlashAttention 優化 , 大幅減少了向 HBM 顯存的數據搬運開銷;通過對于分布式集合通信庫的優化 , MACA 將千卡集群的訓練、推理線性度穩定在 95% 以上 , 專家并行效率提升了 15%;通過異步通信機制 , 還有通信 - 計算重疊優化 , MACA 將數據傳輸任務與 GPU 計算任務解耦并行 , 縮短了端到端延遲 , 提升 GPU 利用率 15%-30% , 解決了因等待數據通信而導致的芯片閑置問題 。
在軟件棧上層 , 沐曦進一步做了面向易用性和部署的優化:其深度支持 PyTorch 2.0 的 torch.compile 動態圖編譯 , 以最大化硬件利用率;針對推理場景打造輕量化引擎 , 優化批處理策略以同時降低延遲、提升吞吐;全面兼容容器化與云原生架構 , 支持企業級的大規模彈性部署與便捷運維 。
MACA 全面兼容當前主流的大模型生態體系 , 無需代碼修改即可開展訓練、推理;針對大規模大模型訓練場景 , 其工具鏈可以縮短訓練周期 , 在分布式訓練中展現出優異線性度 , 可以長周期無故障穩定運行;在推理時 , MACA 針對主流大模型的深度優化降低了延遲 , 提升了吞吐量;與此同時 , MACA 還具備從小規模調試到大規模訓推的全場景平滑擴展能力 。
實測數據表明 , 沐曦通過 MACA-3.3.0.X 構建的一體化算力底座在曦云 C 系列 GPU 上的訓推效能已經展現了與國際旗艦 GPU 產品 A 正面競爭的實力 。

DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型 , 在不同參數規模(如 7B、13B)及任務類型(SFT、Pretrain)下的訓練 TGS 數據 , 包含「旗艦 A TGS」(黃色柱)、「C550 TGS」(紫色柱)及兩者效率比值(綠色折線) 。
MACA 不僅是一個技術平臺 , 更是沐曦「1+6+X」戰略的重要組成部分 。 在這一戰略中 , 「1」代表數字算力底座 , 「6」代表對于六大核心行業的賦能 , 包括金融、醫療健康、能源、教科研、交通和大文娛等行業的 AI 場景應用及開源生態建設 , 「X」代表具身智能、低空經濟等新興行業 。
技術報告詳細介紹了 MACA 對于多個垂直場景的優化:
在搜廣推場景 , MACA 針對 TensorFlow/JAX 與 XLA 技術棧進行了深度協同適配 。 在部分模型中 , 沐曦平臺的性能已達到甚至超過國際旗艦產品 。 在傳統小模型支持方面 , MACA 提供了多模型格式兼容和底層計算優化 , 覆蓋計算機視覺、自然語言處理及傳統機器學習等核心場景 。 在 AI for Science 領域 , MACA 適配了 PaddleScience、WRF 數值模式等科學計算工具 。 除此以外在材料、技術科學、天氣模擬、藥物研發等領域 , MACA 對領域主流 AI 框架都進行了適配 。這種場景化優化能力 , 使得沐曦 GPU 不再僅僅是提供原始的算力 , 而是能夠針對特定行業需求提供優化方案 , 實現從算力到生產力的高效轉化 。
構建生態的長遠布局
作為銜接自主 GPGPU 硬件與全棧軟件體系的核心載體 , MACA 3.3.0.X 的推出不僅是產品版本的常規迭代 , 更是國產芯片廠商在經歷硬件破冰后 , 試圖通過軟件定義算力、通過標準重塑生態的長遠布局 。
值得肯定的是 , 沐曦提供的從 AI 芯片到軟件核心平臺的能力 , 是全棧自研的 —— 與部分廠商選擇兼容 CUDA 或基于現有開源 ISA 進行微調的方式不同 , 沐曦選擇了最具挑戰但也保證了長期安全性的路線:自主指令集 。 MACA 軟件棧具有自己的編程模型和使用范式 , 但也深度兼容 CUDA 生態 , 無需大幅修改即可適配海量 CUDA 項目 。 另外 , 沐曦的 GPU 基于全自研 GPGPU 核心 IP 及架構 , 原生支持全精度計算、MetaXLink 高速互連等特性 。
憑借自研的體系 , 沐曦保證了算力體系的安全合規、性能針對性以及演進自主權 。 與此同時 , MACA 并沒有將全自研等同于「生態完全推倒重來」 , 而是通過 MACA 軟件棧構建了高度兼容的體系 。
這種策略 , 保證了「算力自主」的戰略目標 。 通過一并兼容已有生態海量的算法模型、軟件資產與開發者技能 , 讓更多開發者們無需重復造輪子 , 就可以在自主算力的底座上跑通業務 。 這種「高門檻自研、低成本遷移」的模式 , 最大化地保證了用戶的商業效率與效益 。
【深度拆解沐曦MXMACA軟件棧功能,算力自主+生態兼容】隨著技術的不斷進步 , 沐曦正在以最低的遷移成本 , 將 AI 開發者引入自己的生態軌道 。

    推薦閱讀