日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

r52,IBM筆記本電腦R52,這臺(tái)電腦好不好用( 四 )


手機(jī)的長時(shí)間運(yùn)行場景下 , 芯片整體功耗必須小于2.5瓦 , 分給深度學(xué)習(xí)任務(wù)的 , 不會(huì)超過1.5瓦 。相對應(yīng)的 , 如果做到1Tops/W , 那這就是1.5T(INT8)的處理能力 。對于照片識(shí)別而言 , 情況要好些 , 因?yàn)橥ǔ2恍枰L時(shí)間連續(xù)的處理 。這時(shí)候 , CPU是可以爆發(fā)然后休息的 。語音識(shí)別對性能要求比較低 , 100Gops可以應(yīng)付一般應(yīng)用 , 用小核也足夠 。但有些連續(xù)的場景 , 比如AR環(huán)境識(shí)別 , 每秒會(huì)有30-60幀的圖像送進(jìn)來 , 如果不利用前后文幫助判斷 , CPU是沒法處理的 。此時(shí) , 就需要GPU或者加速器上場 。
上圖是NVidia的神經(jīng)網(wǎng)絡(luò)加速器DLA , 它只有Inference的功能 。前面提到在手機(jī)上的應(yīng)用 , 也只需要Inference來做識(shí)別 , 訓(xùn)練可以在服務(wù)端預(yù)先處理 , 訓(xùn)練好的數(shù)據(jù)下載到手機(jī)就行 , 識(shí)別的時(shí)候無需連接到服務(wù)端 。
DLA綠色的模塊形成類似于固定的流水線 , 上面有一個(gè)控制模塊 , 可以用于動(dòng)態(tài)分配計(jì)算單元 , 以適應(yīng)不同的網(wǎng)絡(luò) 。稀疏矩陣壓縮減少帶寬 , 優(yōu)化的矩陣算法減少計(jì)算量 , 外加SRAM(一個(gè)273x128, 128x128, 128x128 ,128x6 的4層INT8網(wǎng)絡(luò) , 需要70KB SRAM) 。我看到的大多數(shù)加速器 , 其實(shí)都是和它大同小異 , 有些加速器增加了一個(gè)SmartDMA引擎 , 可以通過簡單計(jì)算預(yù)取所需的數(shù)據(jù) 。根據(jù)我看到的一些跑分測試 , 這個(gè)預(yù)取模塊可以把計(jì)算單元的利用率提高到90%以上 。
至于能效比 , 我看過的加速器 , 在支持INT8的算法下 , 可以做到 1.2 Tops/W (1Ghz@T16FFC) , 1 Tops/mm^2 , 并且正在向1.5 Tops/W靠近 。也就是說 , 1.5W可以獲得2Tops (INT8) 的理論計(jì)算能力 。這個(gè)計(jì)算能力有多強(qiáng)呢?我這目前處理1080p 60 FPS的圖像中的60x60及以上的像素大小的人臉識(shí)別 , 大致需要0.5 Tops的計(jì)算能力 , 2Tops完全可以滿足 。當(dāng)然 , 如果要識(shí)別復(fù)雜場景 , 那肯定是計(jì)算力越高越好 。
為什么固定流水的能效比能做的高?ASIC的能效比遠(yuǎn)高于通用處理器已經(jīng)是一個(gè)常識(shí) , 更具體一些 , DLA不需要指令解碼 , 不需要指令預(yù)測 , 不需要亂序執(zhí)行 , 流水線不容易因?yàn)榈却龜?shù)據(jù)而停頓 。下圖是某小核各個(gè)模塊的動(dòng)態(tài)功耗分布 , 計(jì)算單元只占1/3 , 而指令和緩存訪問占了一半 。
有了計(jì)算量 , 深度學(xué)習(xí)加速器對于帶寬的需求是多少?如果SRAM足夠大 , 1Tops的計(jì)算量需要5GB/s以下的帶寬 。連接方法可以放到CPU的加速口ACP (跑在1.8 GHz的ARMv 8.2內(nèi)部總線可以提供9 GB/s帶寬) 。只用一次的數(shù)據(jù)可以設(shè)成非共享類型 , 需要和CPU交換或者常用的數(shù)據(jù)使用Cacheable和Shareable類型 , 既可以在三級緩存分配空間 , 還可以更高效的做監(jiān)聽操作 , 免掉刷緩存 。
不過 , 上述前提成立的前提是權(quán)值可以全部放到SRAM或者緩存 。對于1Tops INT8的計(jì)算量 , 所需權(quán)值的大小是512 GB/s(有重復(fù)) 。如果全部放DDR , 由于手機(jī)的帶寬最多也就是30 GB/S , 是完全不夠看的 。對于輸入 , 中間值和輸出數(shù)據(jù) , 我在上文有個(gè)例子 , 一個(gè)273x128,128x128, 128x128 ,128x6 的4層INT8網(wǎng)絡(luò) , 需要70KB的SRAM(片內(nèi))放權(quán)值 , 共7萬個(gè) 。但是輸入 , 輸出和中間結(jié)果加起來卻只有535個(gè) , 相對來說并不大 。這里的運(yùn)算量是14萬次(乘和加算2次) 。對于1T的運(yùn)算量來說 , 類似 。中間數(shù)據(jù)放寄存器 , 輸出數(shù)據(jù)無關(guān)延遲 , 只看帶寬 , 也夠 。最麻煩的就是權(quán)值 , 數(shù)據(jù)量大到帶寬無法接受 。所以 , 只能把權(quán)值放進(jìn)SRAM防止重復(fù)讀取 , 從而免掉這500GB/s帶寬 。我看到的有些深度學(xué)習(xí)的算法 , 權(quán)值在幾十到200兆 , 這樣無論如何是塞不進(jìn)SRAM的 。哪怕只有10%需要讀入 , 那也是50GB/s的帶寬 。雖說現(xiàn)在有壓縮算法壓縮稀疏矩陣 , 有論文達(dá)到30-50倍的壓縮率 , 但我看到的實(shí)際識(shí)別算法 , 壓縮后至少也是20MB , 還是塞不進(jìn)SRAM 。

推薦閱讀