硬剛NVIDIA H100！摩爾線程國產全新GPU首次公開：單卡1千萬億次

2026-05-04 ai 英偉達 gpu 摩爾線程

文章圖片

文章圖片

文章圖片

智譜發布新一代大模型GLM-5之后，摩爾線程立即宣布，在旗艦級AI訓推一體全功能GPU MTT S5000上完成了Day-0全流程適配與驗證，第一時間提供支持。
MTT S5000是摩爾線程專為大模型訓練、推理及高性能計算設計的全功能GPU智算卡，基于第四代MUSA架構“平湖” ，原生適配PyTorch、Megatron-LM、vLLM、SGLang等主流框架。
它早在2024年就已經低調推出，但是具體造型、參數、性能一直沒有對外公開，非常神秘。

這次在宣布適配GLM-5的同時，摩爾線程首次公布了MTT S5000的部分參數和性能，非常驚喜！
據悉， MTT S5000單卡配備多達80GB顯存，顯存帶寬高達1.6TB/s ，對比上代MTT S4000分別提升了67％、113％，多卡間的互聯帶寬也有784GB/s 。
它完整支持從FP8到FP64的全精度計算，而且是國內最早原生支持FP8精度的訓練GPU之一，配置了硬件級FP8 Tensor Core加速單元。
FP8相比BF16/FP16可將數據位寬減半、顯存帶寬壓力降低50％、理論計算吞吐量翻倍，并全面支持DeepSeek、Qwen等架構，訓練性能可提升30％以上。

MTT S5000的單卡FP8 AI算力最高可達1000 TFLOPS ，首次達到PFLOPS級別，也就是每秒1千萬億次計算。
相比之下， MTT S4000的算力為INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS 。
據業內人士稱， MTT S5000實測性能可以對標NVIDIA H100 ，尤其是在多模態大模型微調任務中，部分性能更是超越H100 ，甚至開始接近最新的Blackwell架構。
2026年1月，智源研究院基于MTT S5000千卡集群，完成了前沿具身大腦模型RoboBrain 2.5(數千億參數)的端到端訓練與對齊驗證， MTT S5000表現出了與H100集群極高的結果一致性，練損失值(loss)差異僅為0.62％，整體訓練效果甚至實現小幅超越。
另據互聯網廠商的場景實測， MTT S5000在典型端到端推理及訓練任務中，性能可以達到NVIDIA H20的2.5倍左右。

目前，基于MTT S5000的夸娥萬卡集群已經落地，浮點運算能力達到10Flops(每秒1千億億次計算) ，在Dense稠密模型訓練中MFU達到60％，在MoE專家模型中維持在40％左右，有效訓練時間占比超過90％，訓練線性擴展效率達95％。
基于原生FP8能力，它能完整復現頂尖大模型的訓練流程， Flash Attention算力利用率超過95％，多項關鍵指標均達到國際主流水平。
值得一提的是， MTT S5000在集群通信層面采用獨創的ACE技術，將復雜通信任務從計算核心卸載，大幅提升模型算力利用率(MFU) 。
實測顯示， MTT S5000從64卡擴展至1024卡，系統的線性擴展效率保持在90％以上，訓練速度隨算力增加幾乎同步倍增。

MTT S5000在推理場景同樣表現優異，比如在2025年12月，摩爾線程聯合硅基流動基于MTT S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試。
實測單卡Prefill吞吐超過4000 tokens/s ， Decode吞吐超過1000 tokens/s ，刷新了國產GPU的推理紀錄。
【硬剛NVIDIA H100！摩爾線程國產全新GPU首次公開：單卡1千萬億次】

推薦閱讀

上一篇：消息稱星宇橙iPhone 17 Pro系列大賣推升蘋果在國內市場營收

下一篇：RTX 5090開機瞬間火花帶閃電！攝像頭記錄下驚險一幕