日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

r52,IBM筆記本電腦R52,這臺(tái)電腦好不好用( 五 )


圖像識(shí)別/美顏相機(jī):目前80%的圖像、視頻任務(wù)都是用CPU在處理
此外 , 移動(dòng)端僅僅有神經(jīng)網(wǎng)絡(luò)加速器是遠(yuǎn)遠(yuǎn)不夠的 。比如要做到下圖效果 , 那首先要把人體的各個(gè)細(xì)微部位精確識(shí)別 , 然后用各種圖像算法來打磨 。而目前主流圖像算法和深度學(xué)習(xí)沒有關(guān)系 , 也沒看到哪個(gè)嵌入式平臺(tái)上的加速器在軟件上有很好的支持 。目前圖像算法的支持平臺(tái)還主要是PC和DSP , 連嵌入式GPU做的都一般 。
那這個(gè)問題怎么解決?我看到兩種思路:
第一種 , GPU內(nèi)置加速器 。下圖是Verisilicon的Vivante改的加速器 , 支持固定流水的加速器和可編程模塊Vision core(類似GPU中的著色器單元) , 模塊數(shù)目可配 , 可以同時(shí)支持視覺和深度學(xué)習(xí)算法 。不過在這里 , 傳統(tǒng)的圖形單元被砍掉了 , 以節(jié)省功耗和面積 。只留下調(diào)度器等共用單元 , 來做異構(gòu)計(jì)算的調(diào)度 。
這類加速器比較適合于低端手機(jī) , 自帶的GPU和CPU本身并不強(qiáng) , 可能光支持1080p的UI就已經(jīng)耗盡GPU資源了 , 需要額外的硬件模塊來完成有一定性能需求的任務(wù) 。
第二種 , 對(duì)于中高端手機(jī) , GPU和CPU的資源在不打游戲的時(shí)候有冗余 , 那么就沒有必要去掉圖形功能 , 直接在GPU里面加深度學(xué)習(xí)加速器就可以 , 讓GPU調(diào)度器統(tǒng)一調(diào)度 , 進(jìn)行異構(gòu)計(jì)算 。
上圖是某款GPU的材質(zhì)計(jì)算單元 , 你有沒有發(fā)現(xiàn) , 其實(shí)它和神經(jīng)網(wǎng)絡(luò)加速器的流水線非常類似?都需要權(quán)值 , 都需要輸入 , 都需要FP16和整數(shù)計(jì)算 , 還有數(shù)據(jù)壓縮 。所不同的是計(jì)算單元的密度 , 還有池化和激活 。稍作改動(dòng) , 完全可以兼容 , 從而進(jìn)一步節(jié)省面積 。
但是話說回來 , 據(jù)我了解 , 目前安卓手機(jī)上各種圖像 , 視頻和視覺的應(yīng)用 , 80%其實(shí)都是用CPU在處理 。而谷歌的Android NN , 默認(rèn)也是調(diào)用CPU匯編 。當(dāng)然 , 手機(jī)芯片自帶的ISP及其后處理 , 由于和芯片綁的很緊 , 還是能把專用硬件調(diào)動(dòng)起來的 。而目前的各類加速器 , GPU , DSP , 要想和應(yīng)用真正結(jié)合 , 還有挺長的路要走 。
AR:如果不復(fù)雜 , 對(duì)CPU和GPU的性能要求并不高
終端設(shè)備上還有一個(gè)應(yīng)用 , AR 。據(jù)說iPhone 8會(huì)實(shí)現(xiàn)這個(gè)功能 , 如果是的話 , 那么估計(jì)繼2015的VR/AR , 2016的DL , 2017的NB-IOT之后 , 2018年又要回鍋炒這個(gè)了 。
那AR到底用到哪些技術(shù)?我了解的如下 , 先是用深度傳感器得到場(chǎng)景深度信息 , 然后結(jié)合攝像頭拍到的2D場(chǎng)景 , 針對(duì)某些特定目標(biāo)(比如桌子 , 面部)構(gòu)建出一個(gè)真實(shí)世界的3D物體 。這其中需要用到圖像識(shí)別來幫助判斷物體 , 還需要確定物體邊界 。有了真實(shí)物體的三維坐標(biāo) , 就可以把所需要渲染的虛擬對(duì)象 , 貼在真實(shí)物體上 。然后再把攝像頭拍到的整個(gè)場(chǎng)景作為材質(zhì) , 貼到背景圖層 , 最后把所有這些圖層輸出到GPU或者硬件合成器 , 合成最終輸出 。這其中還需要判斷光源 , 把光照計(jì)算渲染到虛擬物體上 。這里每一步的計(jì)算量有多大?
首先是深度信息計(jì)算 。獲取深度信息目前有三個(gè)方法 , 雙目攝像頭 , 結(jié)構(gòu)光傳感器 , 還有TOF 。它們分別是根據(jù)光學(xué)圖像差異 , 編碼后的紅外光模板和反射模板差異 , 以及光脈沖飛行時(shí)間來得到深度信息 。第一個(gè)的缺點(diǎn)是需要兩個(gè)攝像頭之間有一定距離 , 并且對(duì)室內(nèi)光線亮度有要求;第二個(gè)需要大量計(jì)算并且室外效果不佳;第三個(gè)方案鏡頭成本較高 。據(jù)說蘋果會(huì)用結(jié)構(gòu)光方案 , 主要場(chǎng)景是室內(nèi) , 避免了缺點(diǎn) 。結(jié)構(gòu)光傳感器的成本在2-3刀之間 , 也是可以接受的 。而對(duì)于計(jì)算力的要求 , 最基本的是對(duì)比兩個(gè)經(jīng)過偽隨機(jī)編碼處理過的發(fā)射模板以及接受模板 , 計(jì)算出長度差 , 然后用矩陣倒推平移距離 , 從而得到深度信息 。這可以用專用模塊來處理 , 我看到單芯片的解決方案 , 720p 60FPS的處理能力 , 需要20GFLOPS FP32的計(jì)算量以上 。換成CPU , 就是8核 。當(dāng)然 , 我們完全可以先識(shí)別出目標(biāo)物體 , 用圖像算法計(jì)算出輪廓 , 還可以降低深度圖的精度(通常不需要很精確) , 從而大大降低計(jì)算量 。而識(shí)別本身的計(jì)算量前文已經(jīng)給出 , 計(jì)算輪廓是經(jīng)典的圖像處理手段 , 針對(duì)特定區(qū)域的話計(jì)算量非常小 , 1-2個(gè)核就可以搞定 。

推薦閱讀