日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

半精度浮點(diǎn)數(shù)計(jì)算,浮點(diǎn)運(yùn)算( 二 )


Nvidia CUDA核心工作流程但圖形處理器的使用者看到如此高效能的浮點(diǎn)運(yùn)算處理器的時(shí)候就在思考如何能讓這類設(shè)備承擔(dān)除了圖形計(jì)算之外的浮點(diǎn)計(jì)算性能 。乘著GPGPU(General-purpose GPU)概念的逐漸興起,顯卡上的統(tǒng)一渲染架構(gòu)的出現(xiàn),也讓這種計(jì)算方式真正成為現(xiàn)實(shí) 。Nvidia在2007年正式發(fā)布了CUDA并行計(jì)算平臺 。
之后也出現(xiàn)了如openCL的通用計(jì)算API(應(yīng)用程序編程接口) 。到此我們突然發(fā)現(xiàn),GPU都來搶CPU的浮點(diǎn)運(yùn)算飯碗了,但為什么CPU非但沒有取消浮點(diǎn)運(yùn)算單元,反而其浮點(diǎn)運(yùn)算性能越來越強(qiáng)??AMD推土機(jī)架構(gòu)示意圖其實(shí)并不是沒有人想到這樣的情況,而是已經(jīng)與產(chǎn)品這么做了,就是AMD的推土機(jī)架構(gòu) 。這個(gè)架構(gòu)放棄了之前的一個(gè)核心就由一套整數(shù)運(yùn)算單元和浮點(diǎn)運(yùn)算單元的組合,而是讓兩個(gè)核心共享一個(gè)浮點(diǎn)運(yùn)算單元組成一個(gè)簇,而AMD將這種架構(gòu)叫做CMT,又稱為群集多線程技術(shù),之后又將相對與Intel有優(yōu)勢的GPU核心集成進(jìn)CPU中,產(chǎn)生了APU處理器 。
AMD當(dāng)時(shí)還為此成立了HSA基金會,為解決CPU和GPU的內(nèi)存統(tǒng)一尋址問題,也提出了hUMA技術(shù)并用在了Sony的PS4游戲機(jī)上 。Sony Playstation 4主機(jī),CPU和GPU共享8GB GDDR5內(nèi)存那為什么廠商做了這么多還是做不到用大規(guī)模的GPU取代CPU中的浮點(diǎn)運(yùn)算單元呢?運(yùn)算精度才是重點(diǎn) 。
CPU中的浮點(diǎn)運(yùn)算單元是為了更高精度浮點(diǎn)運(yùn)算準(zhǔn)備的 。如在最新Intel處理器中的AVX指令集可以處理512位擴(kuò)展數(shù)據(jù),這樣大大提升了計(jì)算精度和速度 。而GPU中的處理器都是為高度并行計(jì)算而設(shè)計(jì)的結(jié)構(gòu)相對簡單的核心,這些核心每一個(gè)都是SIMD處理器,但是能夠處理的數(shù)據(jù)精度是有限的,在Nvidia以及AMD圖形處理器上支持的數(shù)據(jù)精度大多是單精度和雙精度浮點(diǎn)計(jì)算(FP32和FP64),甚至隨著機(jī)器學(xué)習(xí),深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)的流行,最新的圖形處理器甚至支持了半精度浮點(diǎn)運(yùn)算(FP16) 。
其次,由于在計(jì)算精度上相較于CPU中的浮點(diǎn)運(yùn)算單元不高,所以在這些處理器中也沒有內(nèi)置數(shù)據(jù)校驗(yàn)和數(shù)據(jù)補(bǔ)償處理的運(yùn)算單元 。所以對于使用GPU進(jìn)行科學(xué)計(jì)算的人,需要在編程階段就避免這樣的問題 。同時(shí)CPU和GPU在設(shè)計(jì)上就是非常不同的,CPU的浮點(diǎn)單元個(gè)數(shù)很少,但是單個(gè)浮點(diǎn)運(yùn)算單元所提供的性能是很強(qiáng)的 。而GPU中是用過海量的SIMD單元堆砌出來的浮點(diǎn)運(yùn)算能力 。
【半精度浮點(diǎn)數(shù)計(jì)算,浮點(diǎn)運(yùn)算】在CPU設(shè)計(jì)時(shí),還需要設(shè)計(jì)大量的多級緩存來提高CPU的運(yùn)算速度 。而GPU中通常只為這些SIMD處理單元內(nèi)置不多的緩存,而提供大量的內(nèi)存(顯存) 。所以綜合上面的分析,我們可以得出的結(jié)論是雖然GPU擁有更強(qiáng)大的浮點(diǎn)運(yùn)算性能,但是限于其計(jì)算單元的設(shè)計(jì),統(tǒng)一內(nèi)存架構(gòu)的設(shè)計(jì),其還是不能完全取代CPU中的浮點(diǎn)運(yùn)算核心 。

推薦閱讀