硬剛NVIDIA H100!摩爾線程國產全新GPU首次公開:單卡1千萬億次

硬剛NVIDIA H100!摩爾線程國產全新GPU首次公開:單卡1千萬億次

文章圖片

硬剛NVIDIA H100!摩爾線程國產全新GPU首次公開:單卡1千萬億次

文章圖片

硬剛NVIDIA H100!摩爾線程國產全新GPU首次公開:單卡1千萬億次

文章圖片

硬剛NVIDIA H100!摩爾線程國產全新GPU首次公開:單卡1千萬億次
智譜發布新一代大模型GLM-5之后 , 摩爾線程立即宣布 , 在旗艦級AI訓推一體全功能GPU MTT S5000上完成了Day-0全流程適配與驗證 , 第一時間提供支持 。
MTT S5000是摩爾線程專為大模型訓練、推理及高性能計算設計的全功能GPU智算卡 , 基于第四代MUSA架構“平湖” , 原生適配PyTorch、Megatron-LM、vLLM、SGLang等主流框架 。
它早在2024年就已經低調推出 , 但是具體造型、參數、性能一直沒有對外公開 , 非常神秘 。


這次在宣布適配GLM-5的同時 , 摩爾線程首次公布了MTT S5000的部分參數和性能 , 非常驚喜!
據悉 , MTT S5000單卡配備多達80GB顯存 , 顯存帶寬高達1.6TB/s , 對比上代MTT S4000分別提升了67%、113% , 多卡間的互聯帶寬也有784GB/s 。
它完整支持從FP8到FP64的全精度計算 , 而且是國內最早原生支持FP8精度的訓練GPU之一 , 配置了硬件級FP8 Tensor Core加速單元 。
FP8相比BF16/FP16可將數據位寬減半、顯存帶寬壓力降低50%、理論計算吞吐量翻倍 , 并全面支持DeepSeek、Qwen等架構 , 訓練性能可提升30%以上 。

MTT S5000的單卡FP8 AI算力最高可達1000 TFLOPS , 首次達到PFLOPS級別 , 也就是每秒1千萬億次計算 。
相比之下 , MTT S4000的算力為INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS 。
據業內人士稱 , MTT S5000實測性能可以對標NVIDIA H100 , 尤其是在多模態大模型微調任務中 , 部分性能更是超越H100 , 甚至開始接近最新的Blackwell架構 。
2026年1月 , 智源研究院基于MTT S5000千卡集群 , 完成了前沿具身大腦模型RoboBrain 2.5(數千億參數)的端到端訓練與對齊驗證 , MTT S5000表現出了與H100集群極高的結果一致性 , 練損失值(loss)差異僅為0.62% , 整體訓練效果甚至實現小幅超越 。
另據互聯網廠商的場景實測 , MTT S5000在典型端到端推理及訓練任務中 , 性能可以達到NVIDIA H20的2.5倍左右 。

目前 , 基于MTT S5000的夸娥萬卡集群已經落地 , 浮點運算能力達到10Flops(每秒1千億億次計算) , 在Dense稠密模型訓練中MFU達到60% , 在MoE專家模型中維持在40%左右 , 有效訓練時間占比超過90% , 訓練線性擴展效率達95% 。
基于原生FP8能力 , 它能完整復現頂尖大模型的訓練流程 , Flash Attention算力利用率超過95% , 多項關鍵指標均達到國際主流水平 。
值得一提的是 , MTT S5000在集群通信層面采用獨創的ACE技術 , 將復雜通信任務從計算核心卸載 , 大幅提升模型算力利用率(MFU) 。
實測顯示 , MTT S5000從64卡擴展至1024卡 , 系統的線性擴展效率保持在90%以上 , 訓練速度隨算力增加幾乎同步倍增 。


MTT S5000在推理場景同樣表現優異 , 比如在2025年12月 , 摩爾線程聯合硅基流動基于MTT S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試 。
實測單卡Prefill吞吐超過4000 tokens/s , Decode吞吐超過1000 tokens/s , 刷新了國產GPU的推理紀錄 。
【硬剛NVIDIA H100!摩爾線程國產全新GPU首次公開:單卡1千萬億次】

    推薦閱讀