黄色三级视频一区二区三区 ,国产精品日本一区二区在线播放

手機(jī)的長時(shí)間運(yùn)行場景下，芯片整體功耗必須小于2.5瓦，分給深度學(xué)習(xí)任務(wù)的，不會(huì)超過1.5瓦。相對應(yīng)的，如果做到1Tops/W ，那這就是1.5T（INT8）的處理能力。對于照片識(shí)別而言，情況要好些，因?yàn)橥ǔ２恍枰L時(shí)間連續(xù)的處理。這時(shí)候， CPU是可以爆發(fā)然后休息的。語音識(shí)別對性能要求比較低， 100Gops可以應(yīng)付一般應(yīng)用，用小核也足夠。但有些連續(xù)的場景，比如AR環(huán)境識(shí)別，每秒會(huì)有30-60幀的圖像送進(jìn)來，如果不利用前后文幫助判斷， CPU是沒法處理的。此時(shí) ，就需要GPU或者加速器上場。
上圖是NVidia的神經(jīng)網(wǎng)絡(luò)加速器DLA ，它只有Inference的功能。前面提到在手機(jī)上的應(yīng)用，也只需要Inference來做識(shí)別，訓(xùn)練可以在服務(wù)端預(yù)先處理，訓(xùn)練好的數(shù)據(jù)下載到手機(jī)就行，識(shí)別的時(shí)候無需連接到服務(wù)端。
DLA綠色的模塊形成類似于固定的流水線，上面有一個(gè)控制模塊，可以用于動(dòng)態(tài)分配計(jì)算單元，以適應(yīng)不同的網(wǎng)絡(luò) 。稀疏矩陣壓縮減少帶寬，優(yōu)化的矩陣算法減少計(jì)算量，外加SRAM（一個(gè)273x128, 128x128, 128x128 ,128x6 的4層INT8網(wǎng)絡(luò) ，需要70KB SRAM）。我看到的大多數(shù)加速器，其實(shí)都是和它大同小異，有些加速器增加了一個(gè)SmartDMA引擎，可以通過簡單計(jì)算預(yù)取所需的數(shù)據(jù) 。根據(jù)我看到的一些跑分測試，這個(gè)預(yù)取模塊可以把計(jì)算單元的利用率提高到90%以上。
至于能效比，我看過的加速器，在支持INT8的算法下，可以做到 1.2 Tops/W (1Ghz@T16FFC) ， 1 Tops/mm^2 ，并且正在向1.5 Tops/W靠近。也就是說， 1.5W可以獲得2Tops (INT8) 的理論計(jì)算能力。這個(gè)計(jì)算能力有多強(qiáng)呢？我這目前處理1080p 60 FPS的圖像中的60x60及以上的像素大小的人臉識(shí)別，大致需要0.5 Tops的計(jì)算能力， 2Tops完全可以滿足。當(dāng)然，如果要識(shí)別復(fù)雜場景，那肯定是計(jì)算力越高越好。
為什么固定流水的能效比能做的高？ASIC的能效比遠(yuǎn)高于通用處理器已經(jīng)是一個(gè)常識(shí) ，更具體一些， DLA不需要指令解碼，不需要指令預(yù)測，不需要亂序執(zhí)行，流水線不容易因?yàn)榈却龜?shù)據(jù)而停頓。下圖是某小核各個(gè)模塊的動(dòng)態(tài)功耗分布，計(jì)算單元只占1/3 ，而指令和緩存訪問占了一半。
有了計(jì)算量，深度學(xué)習(xí)加速器對于帶寬的需求是多少？如果SRAM足夠大， 1Tops的計(jì)算量需要5GB/s以下的帶寬。連接方法可以放到CPU的加速口ACP （跑在1.8 GHz的ARMv 8.2內(nèi)部總線可以提供9 GB/s帶寬）。只用一次的數(shù)據(jù)可以設(shè)成非共享類型，需要和CPU交換或者常用的數(shù)據(jù)使用Cacheable和Shareable類型，既可以在三級緩存分配空間，還可以更高效的做監(jiān)聽操作，免掉刷緩存。
不過，上述前提成立的前提是權(quán)值可以全部放到SRAM或者緩存。對于1Tops INT8的計(jì)算量，所需權(quán)值的大小是512 GB/s（有重復(fù)）。如果全部放DDR ，由于手機(jī)的帶寬最多也就是30 GB/S ，是完全不夠看的。對于輸入，中間值和輸出數(shù)據(jù) ，我在上文有個(gè)例子，一個(gè)273x128,128x128, 128x128 ,128x6 的4層INT8網(wǎng)絡(luò) ，需要70KB的SRAM（片內(nèi)）放權(quán)值，共7萬個(gè) 。但是輸入，輸出和中間結(jié)果加起來卻只有535個(gè) ，相對來說并不大。這里的運(yùn)算量是14萬次（乘和加算2次）。對于1T的運(yùn)算量來說，類似。中間數(shù)據(jù)放寄存器，輸出數(shù)據(jù)無關(guān)延遲，只看帶寬，也夠。最麻煩的就是權(quán)值，數(shù)據(jù)量大到帶寬無法接受。所以，只能把權(quán)值放進(jìn)SRAM防止重復(fù)讀取，從而免掉這500GB/s帶寬。我看到的有些深度學(xué)習(xí)的算法，權(quán)值在幾十到200兆，這樣無論如何是塞不進(jìn)SRAM的。哪怕只有10%需要讀入，那也是50GB/s的帶寬。雖說現(xiàn)在有壓縮算法壓縮稀疏矩陣，有論文達(dá)到30-50倍的壓縮率，但我看到的實(shí)際識(shí)別算法，壓縮后至少也是20MB ，還是塞不進(jìn)SRAM 。

r52，IBM筆記本電腦R52,這臺(tái)電腦好不好用( 四 )

推薦閱讀

遠(yuǎn)景用的什么輪胎

2022海南智睿九價(jià)HPV疫苗醫(yī)鹿APP預(yù)約流程

煮綠豆為什么有個(gè)別不能煮熟

我買手機(jī)的前期準(zhǔn)備

去江西旅游幾月份去好

暫時(shí)無法接通是不是拉黑了

橘子不能和什么一起吃，橘子不能跟什么蔬菜一起吃

7天啞鈴健身計(jì)劃表

車輛交強(qiáng)險(xiǎn)標(biāo)志現(xiàn)在還要貼嗎?

如何教育孩子不要有歧視心理孩子被歧視怎么回答孩子

中標(biāo)公示在哪里查詢,工程中標(biāo)公示查詢怎么查

商業(yè)醫(yī)療保險(xiǎn)種類,哪些保險(xiǎn)種類不錯(cuò)

英雄傳奇怎么刷英雄,冰雪傳奇盟重英雄

菜鳥裹裹如何關(guān)閉位置信息。

關(guān)于五一的手抄報(bào)，關(guān)于詩歌的手抄報(bào)的標(biāo)題

分享Excel減法運(yùn)算的操作方法 Excel怎么減

r52，IBM筆記本電腦R52,這臺(tái)電腦好不好用( 四 )

推薦閱讀

r52，IBM筆記本電腦R52,這臺(tái)電腦好不好用( 四 )