深度拆解沐曦MXMACA軟件棧功能，算力自主+生態兼容

2026-03-29 ai gpu 軟件算力

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜澤南
近日，剛剛 IPO 的國產 GPU 公司沐曦股份，完成了自上市后的首個重大技術發布。
該公司旗下的 MXMACA 軟件棧（MACA）正式發布了全新版本 3.3.0.X ，沐曦發布了一份 23 頁的技術報告，機器之心圍繞該報告對 MACA 進行解讀。

在全自主硬件體系的支撐下，沐曦已經構建起「全棧軟件」體系，其對于提升計算引擎的效率起到了關鍵作用。同時，新一代 MACA 宣告了沐曦軟件生態的一次重要跨越，它的核心理念，是如何讓國產 GPU 真正「用起來」。
GPU 生態適配的「萬能接口」
MACA（MetaX Accelerated Computing Architecture）被定義為「異構計算軟件棧核心計算平臺、引擎、運維工具和規范化操作范本」，內置了全套自研工具鏈，涵蓋編譯器、性能分析工具、格式轉換組件等，可實現多語言支持、算子自動優化與跨框架平滑適配。
它面向沐曦的曦云 C 系列、曦思 N 系列 GPU 研發，其定位是連接沐曦自研 GPU 硬件與上層應用生態的關鍵紐帶。

MACA 承擔著連接硬件算力單元與上層應用生態的紐帶作用。據介紹，它覆蓋了 AI 芯片工作流程的底層驅動、用戶態接口、編譯器、算子適配、訓練框架、推理框架、行業場景優化等全鏈路能力。
在芯片行業，硬件決定算力基礎，而軟件棧則決定了算力能否被有效釋放。長期以來，國產 GPU 落地面臨的最大挑戰并非純粹的性能，而是生態兼容問題 ——AI 開發者早已習慣在英偉達的 CUDA 生態中開發新技術、構建應用，遷移到新的硬件上意味著高昂的遷移成本。
MACA 3.3.0.X 直擊這一痛點，它是一套「生態強化版」軟件棧，聚焦場景的深度適配，涵蓋底層基礎能力的迭代與主流 AI 框架、大模型訓練推理、搜索、廣告、推薦、科學計算等多維度生態適配，其核心邏輯是構建一個「萬能接口」，讓現有生態能夠近乎無縫地遷移到沐曦平臺上。
具體有多萬能？技術報告顯示，沐曦團隊對 GitHub 上大量 CUDA 項目進行了適配測試。他們篩選了 4490 個「含 CUDA 關鍵字」的活躍代碼倉庫進行驗證，按應用領域包括 AI 模型 / 應用、高性能并行計算、氣象模擬、計算化學等場景。
測試結果顯示， 4173 個項目可以直接適配運行，成功率高達 92.94% 。僅有 260 個項目需要微小調整，占比不足 6% ，且修改主要涉及編譯配置優化，而非核心業務邏輯。

這意味著，幾乎任何現有的 CUDA 項目都可以近乎「開箱即用」地遷移到沐曦平臺上，目前在市面上，還沒有第二家能夠做到。
在 MACA 的這一通適配之后， GitHub 上海量的 AI、數據處理、科學計算應用工具，可以快速適配在國產異構計算平臺上。對于開發者而言，這就意味著面對國產 AI 硬件體系時，學習成本和遷移工作量可以大幅降低。
框架兼容
擁抱主流 AI 開發生態
除了能夠無縫遷移已有的項目工作，新版本 MACA 也強調了對于 AI 框架兼容的特性，它能夠幫助開發者構建和探索新技術。
在 AI 開發領域，框架兼容能力決定了平臺的可用性。 MACA 3.3.0.X 版本完成了對 PyTorch 2.8 的深度適配，覆蓋了全部 2650 個核心算子（其中 GPU 算子 2410 個）。涵蓋從基本算術運算、線性代數操作、卷積 / 池化類算子、規約操作、隨機采樣、索引與切片快速傅里葉變換（FFT）、Attention 等所有關鍵算子類別。它支持多種數據形態，保障了算子能力的完整性與場景適配性。
除了 PyTorch ， MACA 還兼容 TensorFlow、PaddlePaddle、JAX 等主流開源框架，以及 Megatron-LM、DeepSpeed 等大模型訓練框架，在推理端支持 vLLM、SGLang、Transformers、KTransformer 等推理框架。
在操作系統方面， MACA 兼容了 Ubuntu、CentOS、RHEL、openEuler、Anolis OS 、銀河麒麟等主流 Linux 發行版。它同時完整支持混合精度訓練、分布式訓練、torch.compile 編譯優化與圖模式任務下發的深度集成等關鍵特性。
簡單來說，這一兼容性列表幾乎涵蓋了當前 AI 開發的所有主流工具鏈。技術報告中還特別強調，這種適配是「無需調整工程構建邏輯，即可實現現有模型的無縫使用」。
搭配性能分析與優化工具鏈， MACA 配合沐曦 GPU 在核心場景上的性能可以對標主流 GPU 水平。
MACA 不僅僅是一個兼容層，而是一個完整的軟件棧。它包含了開發效率引擎層和垂直場景賦能層兩大核心部分。
在開發效率引擎層， MACA 提供了一系列高性能算子庫，如針對矩陣計算的 mcBLAS、針對深度神經網絡的 mcDNN、針對注意力機制的 mcFlashAttention 等。

MACA 套件中開發效率引擎，其旨在降低異構開發門檻。
這些工具針對沐曦 GPU 的多卡拓撲進行了專門優化，編譯器工具支持 MACA C/C++、Fortran 等語言，能將高級語言轉化為高效的可執行程序。
在垂直場景賦能層， MACA 針對 AI 與科學計算兩大方向，通過針對性的優化策略與框架適配解決需求。
其中在 AI 領域， MACA 的訓練優化兼容 PyTorch、BMTrain 等框架，通過硬件流水線并行實現通信與計算重疊，優化分布式并行策略。推理優化則適配 ONNX Runtime、vLLM、SGLang 等框架，采用 INT8 量化、KVCache 跨卡管理提升長序列處理效率。
在科學計算領域， MACA 通過重構 MPI、BLAS 庫提升內存帶寬，定向移植 OpenFOAM、GROMACS 等科學計算框架，結合容器化部署方案，能夠確保算力能高效支撐流體仿真、分子動力學等垂直場景。

此外， MACA 的性能分析工具提供了系統級追蹤和核函數指標采集功能，能夠幫助開發者定位計算瓶頸。全棧工具鏈的完整性，使得開發者能夠在沐曦平臺上完成從開發到部署的全流程工作。
此種能力的背后，是沐曦構建的大模型訓推一體化能力。
算力到生產力的轉化
MACA-3.3.0.X 版本為開發者們構建起了一套全流程的一體化算力支撐底座，通過軟硬件協同、核心算子優化以及分布式架構的升級，旨在實現訓推效能的跨越式突破。
這一底座的基礎是沐曦自研的 GPGPU ，其高算力密度與高內存帶寬確保了單卡能夠高效處理千億參數模型。通過自研的 MetaXLink 高速互連技術，沐曦在硬件層面構建了低時延、高帶寬的分布式通信網絡，使得算力供給擴展至萬卡級集群，為 AI 大模型的超大規模分布式訓練與推理奠定了基礎。
在軟件層面， MACA 構建起端到端的協同體系。其首要特點是極致的生態兼容性，除此之外， MACA 通過拓撲感知的 MCCL 高性能通信庫和自研的編譯器優化模塊，能夠智能地優化多機多卡的數據通信策略，實現算子自動融合、循環展開等編譯級優化，深度挖掘出硬件底層潛力。

MACA 套件大模型推理優化技術。
一體化設計的重要優勢，在于打破訓練與推理之間的場景壁壘。 MACA 支持模型訓練后的輕量化轉換與直接部署，無需二次適配。通過統一的模型格式與接口規范，它實現了「訓練 - 微調 - 推理 - 部署」全流程鏈路貫通，大幅縮短了大模型從技術研發到業務落地的周期與成本。
在技術層面上， MACA-3.3.0.X 版本針對幾個關鍵瓶頸進行了深度調優。
在關鍵算子上， MACA 針對 FlashAttention 優化，大幅減少了向 HBM 顯存的數據搬運開銷；通過對于分布式集合通信庫的優化， MACA 將千卡集群的訓練、推理線性度穩定在 95% 以上，專家并行效率提升了 15%；通過異步通信機制，還有通信 - 計算重疊優化， MACA 將數據傳輸任務與 GPU 計算任務解耦并行，縮短了端到端延遲，提升 GPU 利用率 15%-30% ，解決了因等待數據通信而導致的芯片閑置問題。
在軟件棧上層，沐曦進一步做了面向易用性和部署的優化：其深度支持 PyTorch 2.0 的 torch.compile 動態圖編譯，以最大化硬件利用率；針對推理場景打造輕量化引擎，優化批處理策略以同時降低延遲、提升吞吐；全面兼容容器化與云原生架構，支持企業級的大規模彈性部署與便捷運維。
MACA 全面兼容當前主流的大模型生態體系，無需代碼修改即可開展訓練、推理；針對大規模大模型訓練場景，其工具鏈可以縮短訓練周期，在分布式訓練中展現出優異線性度，可以長周期無故障穩定運行；在推理時， MACA 針對主流大模型的深度優化降低了延遲，提升了吞吐量；與此同時， MACA 還具備從小規模調試到大規模訓推的全場景平滑擴展能力。
實測數據表明，沐曦通過 MACA-3.3.0.X 構建的一體化算力底座在曦云 C 系列 GPU 上的訓推效能已經展現了與國際旗艦 GPU 產品 A 正面競爭的實力。

DeepSeek、GLM、InternLM、Llama、Qwen 等多系列大模型，在不同參數規模（如 7B、13B）及任務類型（SFT、Pretrain）下的訓練 TGS 數據，包含「旗艦 A TGS」（黃色柱）、「C550 TGS」（紫色柱）及兩者效率比值（綠色折線）。
MACA 不僅是一個技術平臺，更是沐曦「1+6+X」戰略的重要組成部分。在這一戰略中，「1」代表數字算力底座，「6」代表對于六大核心行業的賦能，包括金融、醫療健康、能源、教科研、交通和大文娛等行業的 AI 場景應用及開源生態建設，「X」代表具身智能、低空經濟等新興行業。
技術報告詳細介紹了 MACA 對于多個垂直場景的優化：
在搜廣推場景， MACA 針對 TensorFlow/JAX 與 XLA 技術棧進行了深度協同適配。在部分模型中，沐曦平臺的性能已達到甚至超過國際旗艦產品。在傳統小模型支持方面， MACA 提供了多模型格式兼容和底層計算優化，覆蓋計算機視覺、自然語言處理及傳統機器學習等核心場景。在 AI for Science 領域， MACA 適配了 PaddleScience、WRF 數值模式等科學計算工具。除此以外在材料、技術科學、天氣模擬、藥物研發等領域， MACA 對領域主流 AI 框架都進行了適配。這種場景化優化能力，使得沐曦 GPU 不再僅僅是提供原始的算力，而是能夠針對特定行業需求提供優化方案，實現從算力到生產力的高效轉化。
構建生態的長遠布局
作為銜接自主 GPGPU 硬件與全棧軟件體系的核心載體， MACA 3.3.0.X 的推出不僅是產品版本的常規迭代，更是國產芯片廠商在經歷硬件破冰后，試圖通過軟件定義算力、通過標準重塑生態的長遠布局。
值得肯定的是，沐曦提供的從 AI 芯片到軟件核心平臺的能力，是全棧自研的 —— 與部分廠商選擇兼容 CUDA 或基于現有開源 ISA 進行微調的方式不同，沐曦選擇了最具挑戰但也保證了長期安全性的路線：自主指令集。 MACA 軟件棧具有自己的編程模型和使用范式，但也深度兼容 CUDA 生態，無需大幅修改即可適配海量 CUDA 項目。另外，沐曦的 GPU 基于全自研 GPGPU 核心 IP 及架構，原生支持全精度計算、MetaXLink 高速互連等特性。
憑借自研的體系，沐曦保證了算力體系的安全合規、性能針對性以及演進自主權。與此同時， MACA 并沒有將全自研等同于「生態完全推倒重來」，而是通過 MACA 軟件棧構建了高度兼容的體系。
這種策略，保證了「算力自主」的戰略目標。通過一并兼容已有生態海量的算法模型、軟件資產與開發者技能，讓更多開發者們無需重復造輪子，就可以在自主算力的底座上跑通業務。這種「高門檻自研、低成本遷移」的模式，最大化地保證了用戶的商業效率與效益。
【深度拆解沐曦MXMACA軟件棧功能，算力自主+生態兼容】隨著技術的不斷進步，沐曦正在以最低的遷移成本，將 AI 開發者引入自己的生態軌道。

推薦閱讀

上一篇：通研院提出NPR框架，讓智能體進化出原生的并行推理大腦

下一篇：全國首批10城菁彩Vivid影廳啟幕