亚洲爆乳中文字幕无码专区网站 ,激情都市校园人妻武侠,亚洲精品国产av成人

深入了解汽車系統(tǒng)級(jí)芯片SoC連載之八 gpu是什么的硬件芯片

GPU是協(xié)處理器，CPU是主控。GPU不是獨(dú)立的計(jì)算平臺(tái)，需要和CPU協(xié)同工作，所以可以看作是CPU的協(xié)處理器。所以GPU并行計(jì)算是指CPU GPU的異構(gòu)計(jì)算架構(gòu) 。在異構(gòu)計(jì)算架構(gòu)中，GPU和CPU一般通過PCI-E總線相連，共同工作。CPU的位置叫主機(jī)，GPU的位置叫設(shè)備。
早期的CPU都是針對(duì)整數(shù)運(yùn)算的，有的CPU浮點(diǎn)運(yùn)算量很小，處理低像素還不錯(cuò) 。像素越來越多，需要大量的浮點(diǎn)運(yùn)算處理器，GPU就出現(xiàn)了。所以標(biāo)準(zhǔn)GPU的性能參數(shù)是FLOPS，每秒浮點(diǎn)運(yùn)算次數(shù) 。衡量FLOPS最常用的基準(zhǔn)之一是Linpack 。一個(gè)GFLOPS(千兆次浮點(diǎn)運(yùn)算)等于每秒十億次(= 10 ^ 9)浮點(diǎn)運(yùn)算，一個(gè)TFLOPS(萬億次浮點(diǎn)運(yùn)算)等于每秒一萬億次(= 10 ^ 12)浮點(diǎn)運(yùn)算。CPU的性能單位一般是DMIPS，每秒執(zhí)行的dhrystone百萬條指令，每秒執(zhí)行的整數(shù)運(yùn)算指令數(shù)是百萬次。AI的性能單位是TOPS，每秒TeraOperations，1TOPS是指處理器每秒可以執(zhí)行一萬億(10 ^ 12)次運(yùn)算，無論整數(shù)還是浮點(diǎn)，無論指令還是運(yùn)算。通常只有CPU可以做任務(wù)調(diào)度，但是主機(jī)、AI處理器、GPU都需要CPU配合，是協(xié)處理器設(shè)備。
典型GPU架構(gòu)圖

圖片來源:互聯(lián)網(wǎng)
典型的GPU架構(gòu) 。自2010年Fermi以來，NVIDIA一直使用類似的原理架構(gòu)，并使用Giga線程引擎來管理所有正在進(jìn)行的工作。GPU分為多個(gè)GPC(圖形處理集群)，每個(gè)GPC有多個(gè)SMs (SMX、SMM、流式多處理器)和一個(gè)光柵引擎，其中有很多連接，最著名的是Crossbar，可以連接GPC和其他功能模塊(如ROP或其他子系統(tǒng)) 。
GPU廠商經(jīng)常標(biāo)榜自己有“240”個(gè)核心，但其實(shí)他們所有的核心指的都是“ALUs/FPUs”，和CPU里說的核心還是有區(qū)別的。一般NVIDIA或者ATI調(diào)用一個(gè)核心SP (streamingprocessor)或者SC (shadercore)或者TP (Threadcore)，都是一個(gè)東西。一個(gè)SM包含多個(gè)sp，但是這些sp并不是完全獨(dú)立的執(zhí)行單元。雖然每個(gè)SP都有獨(dú)立的寄存器文件和獨(dú)立的指令指針，但它并沒有完整的取指令、調(diào)度指令等獨(dú)立前端，所以SP更像是CPU中的一個(gè)執(zhí)行部分。
費(fèi)米的SM處理器內(nèi)部框架

圖片來源:互聯(lián)網(wǎng)
Fermi是NVIDIA在2010年發(fā)布的GPU架構(gòu) 。此后，英偉達(dá)的GPU架構(gòu)一直以科學(xué)家命名，前端結(jié)構(gòu)差別不大。Warp Scheduler將一組32個(gè)線程作為一個(gè)經(jīng)線(線程束，可以想象為一臺(tái)紡紗機(jī)將多個(gè)線程編織在一起)進(jìn)行管理，并將要執(zhí)行的指令交給調(diào)度單元。英偉達(dá)的GPU升級(jí)一般是升級(jí)核心內(nèi)核，其他都和費(fèi)米高度一致。Fermi有32768個(gè)32位寄存器，F(xiàn)ermi有512個(gè)SM，即每個(gè)SM(每個(gè)線程束)分為64個(gè)寄存器，每個(gè)線程兩個(gè) 。
費(fèi)米的內(nèi)核包含一個(gè)整數(shù)運(yùn)算單元和一個(gè)浮點(diǎn)運(yùn)算單元。每個(gè)SM也有SFU(特殊函數(shù)單元)，用于特殊運(yùn)算，如三角函數(shù)和指數(shù)對(duì)數(shù) 。每個(gè)核相當(dāng)于GPU中的ALU 。一個(gè)CPU核心最多可以有8個(gè)alu，一個(gè)GPU可以輕松達(dá)到上千個(gè) 。但是GPU通常只能處理一種算法。CPU可以勝任多種算法。ALU就像一個(gè)教授，從加減乘除到微積分什么都會(huì) 。GPU就像幾千個(gè)小學(xué)生的集合，通常只做乘法。FP后來成為GPGPU時(shí)代的FMA或FFMA(融合了多重累加) ?；旧纤兴^的人工智能算法都拆解到最底層，都是乘積累加計(jì)算，尤其是乘積累加指令集。
NVIDIA的A100GPU物理架構(gòu)，配Ampere架構(gòu)用于AI 。