日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片( 二 )



圖片來源:互聯(lián)網(wǎng)
2019年推出的安培架構(gòu)整體上與費(fèi)米架構(gòu)保持一致 。
NVIDIA Ampere架構(gòu)中的SM內(nèi)部框架

深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


圖片來源:互聯(lián)網(wǎng)
在NVIDIA Ampere架構(gòu)的SM內(nèi)部框架中,ALU被劃分為更精細(xì)的位,INT32是32位整數(shù),F(xiàn)P32是32位浮點(diǎn),F(xiàn)P64是64位浮點(diǎn) 。專門針對(duì)矩陣運(yùn)算,有張量核 。
實(shí)際CPU和GPU最大的區(qū)別就是帶寬 。CPU就像法拉利,跑得很快,但是拉貨的話,還不如重卡 。GPU就像一輛重型卡車,跑不快,但一次拉的貨多 。有些貨物可以打包裝運(yùn) 。如果所有的貨物都來自一個(gè)地方,并且大小相同,就需要運(yùn)輸?shù)揭粋€(gè)地方 。這是一項(xiàng)計(jì)算密集型任務(wù) 。有些貨做不到 。比如這些貨要去的地方不一樣,大小也不一樣 。它們不能多重包裝,只能多次運(yùn)輸 。這是一項(xiàng)控制密集型任務(wù) 。CPU在緩存、分支預(yù)測(cè)和亂序執(zhí)行上花了很多精力 。這些功能用大量寄存器實(shí)現(xiàn),保證了高速 。一般頻率比GPU高很多,每次速度都很快,但是大量的寄存器占用了大量的空 ??紤]到成本和半導(dǎo)體的基本規(guī)律(單個(gè)管芯的面積小于800平方毫米,否則良率會(huì)迅速下降),CPU核的數(shù)量非常有限,每次都可以帶 。相反,GPU不考慮分支預(yù)測(cè)和亂序執(zhí)行,用最快的寄存器代替緩存 。結(jié)構(gòu)簡(jiǎn)單,晶體管少,可以輕松做到上千核,一次貨很多,但是速度不快 。
深度學(xué)習(xí)或者人工智能是一個(gè)計(jì)算密集型的任務(wù),數(shù)據(jù)一般會(huì)占用一大塊連續(xù)內(nèi)存空 。GPU可以提供最好的內(nèi)存帶寬,線程并行帶來的延遲影響不大 。另外,一般來說,GPU的并行計(jì)算架構(gòu)離執(zhí)行單元越近(指CPU的核心或者GPU的流處理器),訪問速度越快,其中寄存器和L1緩存離CPU最近 。GPU的優(yōu)勢(shì)在于GPU為每個(gè)處理單元(流處理器或SM)配備了一些寄存器,而GPU上百個(gè)處理單元使得寄存器總數(shù)非常大(是CPU 14MB的30倍),速度達(dá)到80 TB/s..相比之下,CPU的寄存器大小通常為64-128KB,運(yùn)行速度為10-20 TB/s..當(dāng)然上面的比較在數(shù)值上不會(huì)很準(zhǔn)確,CPU寄存器和GPU寄存器也不一樣 。大小和速度的不同是主要的關(guān)鍵點(diǎn) 。最后,GPU的優(yōu)勢(shì)在于大量的快速寄存器和L1緩存易于編程,這使得GPU非常適合深度學(xué)習(xí) 。
NVIDIA Volta V100 GPU的存儲(chǔ)架構(gòu)圖
深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


圖片來源:互聯(lián)網(wǎng)
從上圖可以看出,每個(gè)處理塊都有一個(gè)高達(dá)64KiB的寄存器,而且寄存器最快 。只要一個(gè)周期,仍然需要通過總線訪問緩存或SRAM,這遠(yuǎn)遠(yuǎn)少于寄存器 。
早期的GPU
早期的GPU和現(xiàn)在的GPGPU差別不小 。早期的GPU主要是生成和渲染圖形 。第一步是畫三角形 。三角形光柵化器必須一次處理很多事情:跟蹤三角形的形狀,插值坐標(biāo)U和V(對(duì)于透視校正映射,它是u/z,v/z和1/z),執(zhí)行Z緩沖區(qū)測(cè)試(對(duì)于透視校正映射,可以使用1)這些都是浮點(diǎn)操作 。早期的CPU都是針對(duì)整數(shù)運(yùn)算的,有的CPU浮點(diǎn)運(yùn)算量很小,處理低像素還不錯(cuò) 。隨著像素越來越多,GPU出現(xiàn)了 。
GPU的圖形處理邏輯流水線
深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


圖片來源:互聯(lián)網(wǎng)
圖形邏輯管道通常稱為渲染管道,渲染管道是在顯存中打開的 。在CPU注入網(wǎng)格,材質(zhì),貼圖,著色器等之后 。進(jìn)入顯存,GPU開始渲染流水線 。渲染流水線分為幾何階段和光柵化階段(也叫像素階段),最后將運(yùn)算結(jié)果送到顯示器的緩沖區(qū) 。幾何階段分為->頂點(diǎn)著色器;曲面細(xì)分著色器(DirectX11和OpenGL4.x以上可編程)->;幾何著色器->;切割->;屏幕映射的五個(gè)步驟 。ROP階段分為->三角形設(shè)置;三角形遍歷->;芯片著色器->;逐細(xì)胞操作的四個(gè)步驟 。渲染流水線和CPU指令流水線的側(cè)重點(diǎn)不同 。它實(shí)際上不是一個(gè)流水線,同一個(gè)draw調(diào)用在不同的階段運(yùn)行(draw call指令是CPU發(fā)出的),但是一個(gè)Draw調(diào)用中先提交的數(shù)據(jù)(Draw Call進(jìn)入下一個(gè)流水線階段,而不等待它之后的數(shù)據(jù) 。

推薦閱讀