比預期還要高60% DeepSeek V4參數量有望達到1.6萬億

2026-04-24 deepseek

文章圖片

【比預期還要高60% DeepSeek V4參數量有望達到1.6萬億】
快科技4月17日消息，距離4月下旬沒有幾天了， DeepSeek V4大模型的發布牽動人心，昨天該公司研究人員突然更新了DeepGEMM算子庫，被視為V4發不動的千兆。
然而他們顯然也預料到了外界的反應，更新之后還額外添加了一個說明，強調這次更新只與DeepGEMM開發相關，跟內部模型發布無關，就是說大家不要多想，這不代表著V4要發了。

不過越是這樣聲明，越讓大家對DeepSeek V4感興趣了，因為DeepGEMM這波更新的亮點挺多，不可能跟V4大模型沒關系。
這次的更新除了支持了FP8_FP4混合算子及優化了對NVIDIA Blackwell的支持之外，架構上升級主要是Mega MoE及HyperConnection ，其中Mega MoE有可能會帶來MoE架構的一次重磅升級。
Mega MoE的好處很多，網上有不少解釋了， Gemini的解析暗示V4的激活專家數量會比V3的256個大幅提升，可能是數千個，如此一來顯然會極大地提升V4的性能，同時又維持靈活性，不會對算力和顯存有夸張的需求。

更重要的一點， DeepGEMM這次的更新還暗示了V4大模型的參數量，網友表示單層MoE大約是25.37B ，如果還是60層，那V4大概率是1.6T的大模型，再不濟也是48層1.25T的大模型。
對比之前V4是個1T萬億參數的傳聞， 1.6T參數量意味著比之前的預期還要高60% ，那性能表現就非常值得期待了。
萬一1.6T沒實現， 1.25T參數量也會比當前V3的6700億參數量翻倍，依然可以期待下表現，畢竟Mega MoE技術再做到數千個激活專家，那絕對是一次蛻變，改變MoE架構大模型發展的里程碑事件。

推薦閱讀

上一篇：承受太多網暴！雷軍：直播為戳穿黑水軍懇請大家多幫小米

下一篇：BigMe發布前后雙屏手機：彩色電子墨水屏+后置小圓屏