日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


GPU是協(xié)處理器,CPU是主控 。GPU不是獨(dú)立的計(jì)算平臺(tái),需要和CPU協(xié)同工作,所以可以看作是CPU的協(xié)處理器 。所以GPU并行計(jì)算是指CPU GPU的異構(gòu)計(jì)算架構(gòu) 。在異構(gòu)計(jì)算架構(gòu)中,GPU和CPU一般通過PCI-E總線相連,共同工作 。CPU的位置叫主機(jī),GPU的位置叫設(shè)備 。
早期的CPU都是針對(duì)整數(shù)運(yùn)算的,有的CPU浮點(diǎn)運(yùn)算量很小,處理低像素還不錯(cuò) 。像素越來越多,需要大量的浮點(diǎn)運(yùn)算處理器,GPU就出現(xiàn)了 。所以標(biāo)準(zhǔn)GPU的性能參數(shù)是FLOPS,每秒浮點(diǎn)運(yùn)算次數(shù) 。衡量FLOPS最常用的基準(zhǔn)之一是Linpack 。一個(gè)GFLOPS(千兆次浮點(diǎn)運(yùn)算)等于每秒十億次(= 10 ^ 9)浮點(diǎn)運(yùn)算,一個(gè)TFLOPS(萬億次浮點(diǎn)運(yùn)算)等于每秒一萬億次(= 10 ^ 12)浮點(diǎn)運(yùn)算 。CPU的性能單位一般是DMIPS,每秒執(zhí)行的dhrystone百萬條指令,每秒執(zhí)行的整數(shù)運(yùn)算指令數(shù)是百萬次 。AI的性能單位是TOPS,每秒TeraOperations,1TOPS是指處理器每秒可以執(zhí)行一萬億(10 ^ 12)次運(yùn)算,無論整數(shù)還是浮點(diǎn),無論指令還是運(yùn)算 。通常只有CPU可以做任務(wù)調(diào)度,但是主機(jī)、AI處理器、GPU都需要CPU配合,是協(xié)處理器設(shè)備 。
典型GPU架構(gòu)圖
深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


圖片來源:互聯(lián)網(wǎng)
典型的GPU架構(gòu) 。自2010年Fermi以來,NVIDIA一直使用類似的原理架構(gòu),并使用Giga線程引擎來管理所有正在進(jìn)行的工作 。GPU分為多個(gè)GPC(圖形處理集群),每個(gè)GPC有多個(gè)SMs (SMX、SMM、流式多處理器)和一個(gè)光柵引擎,其中有很多連接,最著名的是Crossbar,可以連接GPC和其他功能模塊(如ROP或其他子系統(tǒng)) 。
GPU廠商經(jīng)常標(biāo)榜自己有“240”個(gè)核心,但其實(shí)他們所有的核心指的都是“ALUs/FPUs”,和CPU里說的核心還是有區(qū)別的 。一般NVIDIA或者ATI調(diào)用一個(gè)核心SP (streamingprocessor)或者SC (shadercore)或者TP (Threadcore),都是一個(gè)東西 。一個(gè)SM包含多個(gè)sp,但是這些sp并不是完全獨(dú)立的執(zhí)行單元 。雖然每個(gè)SP都有獨(dú)立的寄存器文件和獨(dú)立的指令指針,但它并沒有完整的取指令、調(diào)度指令等獨(dú)立前端,所以SP更像是CPU中的一個(gè)執(zhí)行部分 。
費(fèi)米的SM處理器內(nèi)部框架
深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片


圖片來源:互聯(lián)網(wǎng)
Fermi是NVIDIA在2010年發(fā)布的GPU架構(gòu) 。此后,英偉達(dá)的GPU架構(gòu)一直以科學(xué)家命名,前端結(jié)構(gòu)差別不大 。Warp Scheduler將一組32個(gè)線程作為一個(gè)經(jīng)線(線程束,可以想象為一臺(tái)紡紗機(jī)將多個(gè)線程編織在一起)進(jìn)行管理,并將要執(zhí)行的指令交給調(diào)度單元 。英偉達(dá)的GPU升級(jí)一般是升級(jí)核心內(nèi)核,其他都和費(fèi)米高度一致 。Fermi有32768個(gè)32位寄存器,F(xiàn)ermi有512個(gè)SM,即每個(gè)SM(每個(gè)線程束)分為64個(gè)寄存器,每個(gè)線程兩個(gè) 。
費(fèi)米的內(nèi)核包含一個(gè)整數(shù)運(yùn)算單元和一個(gè)浮點(diǎn)運(yùn)算單元 。每個(gè)SM也有SFU(特殊函數(shù)單元),用于特殊運(yùn)算,如三角函數(shù)和指數(shù)對(duì)數(shù) 。每個(gè)核相當(dāng)于GPU中的ALU 。一個(gè)CPU核心最多可以有8個(gè)alu,一個(gè)GPU可以輕松達(dá)到上千個(gè) 。但是GPU通常只能處理一種算法 。CPU可以勝任多種算法 。ALU就像一個(gè)教授,從加減乘除到微積分什么都會(huì) 。GPU就像幾千個(gè)小學(xué)生的集合,通常只做乘法 。FP后來成為GPGPU時(shí)代的FMA或FFMA(融合了多重累加) ?;旧纤兴^的人工智能算法都拆解到最底層,都是乘積累加計(jì)算,尤其是乘積累加指令集 。
NVIDIA的A100GPU物理架構(gòu),配Ampere架構(gòu)用于AI 。
深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片

推薦閱讀