爆草黑丝白虎小处女,视频在线只有精品日韩,亚洲日韩精品无码专区加勒比

圖片來源:互聯(lián)網(wǎng)
2019年推出的安培架構(gòu)整體上與費(fèi)米架構(gòu)保持一致。
NVIDIA Ampere架構(gòu)中的SM內(nèi)部框架

深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片

圖片來源:互聯(lián)網(wǎng)
在NVIDIA Ampere架構(gòu)的SM內(nèi)部框架中，ALU被劃分為更精細(xì)的位，INT32是32位整數(shù)，F(xiàn)P32是32位浮點(diǎn)，F(xiàn)P64是64位浮點(diǎn) 。專門針對(duì)矩陣運(yùn)算，有張量核。
實(shí)際CPU和GPU最大的區(qū)別就是帶寬。CPU就像法拉利，跑得很快，但是拉貨的話，還不如重卡。GPU就像一輛重型卡車，跑不快，但一次拉的貨多。有些貨物可以打包裝運(yùn) 。如果所有的貨物都來自一個(gè)地方，并且大小相同，就需要運(yùn)輸?shù)揭粋€(gè)地方。這是一項(xiàng)計(jì)算密集型任務(wù) 。有些貨做不到。比如這些貨要去的地方不一樣，大小也不一樣。它們不能多重包裝，只能多次運(yùn)輸。這是一項(xiàng)控制密集型任務(wù) 。CPU在緩存、分支預(yù)測(cè)和亂序執(zhí)行上花了很多精力。這些功能用大量寄存器實(shí)現(xiàn)，保證了高速。一般頻率比GPU高很多，每次速度都很快，但是大量的寄存器占用了大量的空 ?？紤]到成本和半導(dǎo)體的基本規(guī)律(單個(gè)管芯的面積小于800平方毫米，否則良率會(huì)迅速下降)，CPU核的數(shù)量非常有限，每次都可以帶。相反，GPU不考慮分支預(yù)測(cè)和亂序執(zhí)行，用最快的寄存器代替緩存。結(jié)構(gòu)簡(jiǎn)單，晶體管少，可以輕松做到上千核，一次貨很多，但是速度不快。
深度學(xué)習(xí)或者人工智能是一個(gè)計(jì)算密集型的任務(wù)，數(shù)據(jù)一般會(huì)占用一大塊連續(xù)內(nèi)存空。GPU可以提供最好的內(nèi)存帶寬，線程并行帶來的延遲影響不大。另外，一般來說，GPU的并行計(jì)算架構(gòu)離執(zhí)行單元越近(指CPU的核心或者GPU的流處理器)，訪問速度越快，其中寄存器和L1緩存離CPU最近。GPU的優(yōu)勢(shì)在于GPU為每個(gè)處理單元(流處理器或SM)配備了一些寄存器，而GPU上百個(gè)處理單元使得寄存器總數(shù)非常大(是CPU 14MB的30倍)，速度達(dá)到80 TB/s..相比之下，CPU的寄存器大小通常為64-128KB，運(yùn)行速度為10-20 TB/s..當(dāng)然上面的比較在數(shù)值上不會(huì)很準(zhǔn)確，CPU寄存器和GPU寄存器也不一樣。大小和速度的不同是主要的關(guān)鍵點(diǎn) 。最后，GPU的優(yōu)勢(shì)在于大量的快速寄存器和L1緩存易于編程，這使得GPU非常適合深度學(xué)習(xí) 。
NVIDIA Volta V100 GPU的存儲(chǔ)架構(gòu)圖

圖片來源:互聯(lián)網(wǎng)
從上圖可以看出，每個(gè)處理塊都有一個(gè)高達(dá)64KiB的寄存器，而且寄存器最快。只要一個(gè)周期，仍然需要通過總線訪問緩存或SRAM，這遠(yuǎn)遠(yuǎn)少于寄存器。
早期的GPU
早期的GPU和現(xiàn)在的GPGPU差別不小。早期的GPU主要是生成和渲染圖形。第一步是畫三角形。三角形光柵化器必須一次處理很多事情:跟蹤三角形的形狀，插值坐標(biāo)U和V(對(duì)于透視校正映射，它是u/z，v/z和1/z)，執(zhí)行Z緩沖區(qū)測(cè)試(對(duì)于透視校正映射，可以使用1)這些都是浮點(diǎn)操作。早期的CPU都是針對(duì)整數(shù)運(yùn)算的，有的CPU浮點(diǎn)運(yùn)算量很小，處理低像素還不錯(cuò) 。隨著像素越來越多，GPU出現(xiàn)了。
GPU的圖形處理邏輯流水線

圖片來源:互聯(lián)網(wǎng)
圖形邏輯管道通常稱為渲染管道，渲染管道是在顯存中打開的。在CPU注入網(wǎng)格，材質(zhì)，貼圖，著色器等之后。進(jìn)入顯存，GPU開始渲染流水線。渲染流水線分為幾何階段和光柵化階段(也叫像素階段)，最后將運(yùn)算結(jié)果送到顯示器的緩沖區(qū) 。幾何階段分為->頂點(diǎn)著色器；曲面細(xì)分著色器(DirectX11和OpenGL4.x以上可編程)->；幾何著色器->；切割->；屏幕映射的五個(gè)步驟。ROP階段分為->三角形設(shè)置；三角形遍歷->；芯片著色器->；逐細(xì)胞操作的四個(gè)步驟。渲染流水線和CPU指令流水線的側(cè)重點(diǎn)不同。它實(shí)際上不是一個(gè)流水線，同一個(gè)draw調(diào)用在不同的階段運(yùn)行(draw call指令是CPU發(fā)出的)，但是一個(gè)Draw調(diào)用中先提交的數(shù)據(jù)(Draw Call進(jìn)入下一個(gè)流水線階段，而不等待它之后的數(shù)據(jù) 。