比預期還要高60% DeepSeek V4參數量有望達到1.6萬億

比預期還要高60% DeepSeek V4參數量有望達到1.6萬億

文章圖片

【比預期還要高60% DeepSeek V4參數量有望達到1.6萬億】比預期還要高60% DeepSeek V4參數量有望達到1.6萬億
快科技4月17日消息 , 距離4月下旬沒有幾天了 , DeepSeek V4大模型的發布牽動人心 , 昨天該公司研究人員突然更新了DeepGEMM算子庫 , 被視為V4發不動的千兆 。
然而他們顯然也預料到了外界的反應 , 更新之后還額外添加了一個說明 , 強調這次更新只與DeepGEMM開發相關 , 跟內部模型發布無關 , 就是說大家不要多想 , 這不代表著V4要發了 。

不過越是這樣聲明 , 越讓大家對DeepSeek V4感興趣了 , 因為DeepGEMM這波更新的亮點挺多 , 不可能跟V4大模型沒關系 。
這次的更新除了支持了FP8_FP4混合算子及優化了對NVIDIA Blackwell的支持之外 , 架構上升級主要是Mega MoE及HyperConnection , 其中Mega MoE有可能會帶來MoE架構的一次重磅升級 。
Mega MoE的好處很多 , 網上有不少解釋了 , Gemini的解析暗示V4的激活專家數量會比V3的256個大幅提升 , 可能是數千個 , 如此一來顯然會極大地提升V4的性能 , 同時又維持靈活性 , 不會對算力和顯存有夸張的需求 。

更重要的一點 , DeepGEMM這次的更新還暗示了V4大模型的參數量 , 網友表示單層MoE大約是25.37B , 如果還是60層 , 那V4大概率是1.6T的大模型 , 再不濟也是48層1.25T的大模型 。
對比之前V4是個1T萬億參數的傳聞 , 1.6T參數量意味著比之前的預期還要高60% , 那性能表現就非常值得期待了 。
萬一1.6T沒實現 , 1.25T參數量也會比當前V3的6700億參數量翻倍 , 依然可以期待下表現 , 畢竟Mega MoE技術再做到數千個激活專家 , 那絕對是一次蛻變 , 改變MoE架構大模型發展的里程碑事件 。

    推薦閱讀