拼裝」CPU,4納米顯卡,世界最快AI超算,還有游戲開發(fā)者的元宇宙 。這次,老黃的百寶箱里都有啥?
今天,老黃穿著他的皮衣又來了!
3月22日晚,英偉達GTC 2022開幕 。
雖然沒有了那個熟悉的廚房,但這次的陣仗反而更加豪華 。
英偉達用Omniverse把新總部從內(nèi)到外渲染了一遍!
800億個晶體管的Hopper H100
隨著拔地而起的平臺,英偉達推出了為超算設(shè)計的最新AI顯卡Hopper H100 。
相比于「只有」540億個晶體管的前輩A100,英偉達在H100中裝入了800億個晶體管,并采用了定制的臺積電4納米工藝 。
也就是說,H100將具有更好的功率/性能特性,并在密度方面有一定程度上的改進 。
在算力上,H100的FP16、TF32以及FP64性能都是A100的3倍,分別為2000 TFLOPS、1000 TFLOPS和60 TFLOPS 。
此外,H100還增加了對FP8支持,算力高達4000 TFLOPS,比A100快6倍 。畢竟在 這方面,后者由于缺乏原生FP8支持而不得不依賴FP16 。
內(nèi)存方面,H100也將默認支持帶寬為3TB/s的HBM3,比A100的HBM2E提升1.5倍 。
H100支持的第四代NVLink接口可以提供高達128GB/s的帶寬,是A100的1.5倍;而在PCIe 5.0下也可以達到128GB/s的速度,是PCIe 4.0的2倍 。
同時,H100的SXM版本將TDP增加到了700W,而A100為400W 。而75%的功率提升,通常來說可以預(yù)計獲得2到3倍的性能 。
為了優(yōu)化性能,Nvidia還推出了一個新的Transformer Engine,將根據(jù)工作負載在FP8和FP16格式之間自動切換 。
Hopper架構(gòu)全新的DPX指令,將為動態(tài)規(guī)劃的計算速度帶來高達40倍的提升 。
在AI訓(xùn)練中,H100可以提供高達9倍的吞吐量 。以Megatron 530B為基準,則可以提供16倍至30倍的推理性能 。在3D FFT(快速傅里葉變換)和基因組測序等HPC應(yīng)用中,則可提升6-7倍 。
DGX服務(wù)器系統(tǒng)
第四代英偉達DGX服務(wù)器系統(tǒng),將世界上第一個采用H100顯卡構(gòu)建的AI服務(wù)器平臺 。
DGX H100服務(wù)器系統(tǒng)可提供滿足大型語言模型、推薦系統(tǒng)、醫(yī)療保健研究和氣候科學(xué)的海量計算需求所需的規(guī)模 。
其中,每個服務(wù)器系統(tǒng)包含8個H100顯卡,通過NVLink鏈接為單個整體,晶體管總計6400億個 。
在FP8精度下,DGX H100可以提供32 PFLOPS的性能,比上一代高6倍 。
此外,每個DGX H100系統(tǒng)還包括兩個NVIDIA BlueField-3 DPU,用于卸載、加速和隔離網(wǎng)絡(luò)、存儲和安全服務(wù) 。
8個NVIDIA ConnectX-7 Quantum-2 InfiniBand網(wǎng)絡(luò)適配器提供每秒400 Gb的吞吐量來連接計算和存儲模塊——速度是上一代系統(tǒng)的兩倍 。
第四代NVLink與NVSwitch相結(jié)合,可在每個DGX H100系統(tǒng)中的每個GPU之間提供每秒900 GB的連接,是上一代的1.5倍 。
而最新的DGX SuperPOD架構(gòu)則可連接多達32個節(jié)點、總共256個H100顯卡 。
DGX SuperPOD可提供1 EFLOPS的FP8性能,同樣也是前代的6倍 。
世界上最快的AI超算
由576個DGX H100服務(wù)器系統(tǒng)和4608個DGX H100顯卡組成的「Eos」超級計算機預(yù)計將提供18.4 EFLOPS的AI計算性能,比目前世界上最快的超算——日本的「富岳」快4倍 。
對于傳統(tǒng)的科學(xué)計算,Eos有望提供275 PFLOPS的性能 。
Transformer Engine
作為新Hopper架構(gòu)的一部分,將顯著提高AI的性能,大型模型的訓(xùn)練可以在數(shù)天甚至數(shù)小時內(nèi)完成 。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過程中采用的精度是固定的,因此也難以將FP8應(yīng)用在整個模型之中 。
而Transformer Engine則可以在FP16和FP8之間逐層訓(xùn)練,并利用英偉達提供的啟發(fā)式方法來選擇所需的最低精度 。
此外,Transformer Engine可以用2倍于FP16的速度打包和處理FP8數(shù)據(jù),于是模型的每一層可以用FP8處理的數(shù)據(jù)都可以提升2倍的速度 。
推薦閱讀
- CPU超頻是什么意思啊 CPU超頻是什么意思
- 聯(lián)想g400 cpu 聯(lián)想g400筆記本怎么樣
- 臺式電腦主機cpu哪個牌子好 臺式機cpu哪款好
- 如何查看cpu溫度win11 如何查看CPU溫度
- 四核是四個cpu嗎 四核cpu有哪些
- cpu性能指標(biāo)有哪些,如何選購cpu CPU性能指標(biāo)有哪些
- b250主板配什么cpu最佳 b250主板配什么cpu
- 筆記本cpu溫度過高是什么原因 cpu溫度過高怎么辦
- cpu使用率高怎么辦 cpu使用率高應(yīng)該怎么辦呢
- cpu天梯圖2019年9月 CPU天梯圖2019
