日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

Deeplab,deeplab( 二 )


圖像語義分割的模型設(shè)計也能自動化了嗎?
過去,神經(jīng)網(wǎng)絡(luò)架構(gòu)大部分都是由人類研究者手動開發(fā)的,這個過程非常耗時且容易出錯 。神經(jīng)架構(gòu)自動搜索(NAS)技術(shù)解放了人類工作,也讓模型效率有了提升 。在大規(guī)模圖像分類問題上,自動算出的模型已經(jīng)超越了人類設(shè)計的模型 。近日,斯坦福大學(xué)李飛飛組的研究者提出了 Auto-DeepLab,其在圖像語義分割問題上超越了很多業(yè)內(nèi)最佳模型,甚至可以在未經(jīng)過預(yù)訓(xùn)練的情況下達(dá)到預(yù)訓(xùn)練模型的表現(xiàn) 。
Auto-DeepLab 開發(fā)出與分層架構(gòu)搜索空間完全匹配的離散架構(gòu)的連續(xù)松弛,顯著提高架構(gòu)搜索的效率,降低算力需求 。深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在很多人工智能任務(wù)上取得了成功,包括圖像識別、語音識別、機器翻譯等 。雖然更好的優(yōu)化器 [36] 和歸一化技術(shù) [32, 79] 在其中起了重要作用,但很多進(jìn)步要歸功于神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計 。
在計算機視覺中,這適用于圖像分類和密集圖像預(yù)測 。表 1:本研究提出的模型 Auto-DeepLab 和其它雙層 CNN 架構(gòu)的對比 。主要區(qū)別有:(1) Auto-DeepLab 直接搜索用于語義分割的 CNN 架構(gòu);(2) Auto-DeepLab 搜索網(wǎng)絡(luò)級架構(gòu)和單元級架構(gòu);(3) Auto-DeepLab 的高效搜索在一個 P100 GPU 上僅需 3 天 。
最近,在 AutoML 和 AI 民主化的影響下,人們對自動化設(shè)計神經(jīng)網(wǎng)絡(luò)架構(gòu)產(chǎn)生了極大興趣,自動化設(shè)計神經(jīng)網(wǎng)絡(luò)無需嚴(yán)重依賴專家經(jīng)驗和知識 。更重要的是,去年神經(jīng)架構(gòu)搜索(NAS)成功找到了在大規(guī)模圖像分類任務(wù)上超越人類設(shè)計架構(gòu)的網(wǎng)絡(luò)架構(gòu) [92, 47, 61] 。圖像分類對 NAS 來說是一個很好的起點,因為它是最基礎(chǔ)且研究最深入的高級識別任務(wù) 。
此外,該研究領(lǐng)域存在具有規(guī)模相對較小的基準(zhǔn)數(shù)據(jù)集(如 CIFAR-10),從而減少了計算量并加快了訓(xùn)練速度 。然而,圖像分類不應(yīng)該是 NAS 的終點,現(xiàn)下的成功表明它可以擴展至要求更高的領(lǐng)域 。在本文中,作者研究了用于語義圖像分割的神經(jīng)架構(gòu)搜索 。這是一項重要的計算機視覺任務(wù),它為輸入圖像的每個像素分配標(biāo)簽,如「人」或「自行車」 。
簡單地移植圖像分類的方法不足以進(jìn)行語義分割 。在圖像分類中,NAS 通常使用從低分辨率圖像到高分辨率圖像的遷移學(xué)習(xí) [92],而語義分割的最佳架構(gòu)必須在高分辨率圖像上運行 。這表明,本研究需要:(1) 更松弛、更通用的搜索空間,以捕捉更高分辨率導(dǎo)致的架構(gòu)變體;(2) 更高效的架構(gòu)搜索技術(shù),因為高分辨率需要的計算量更大 。
作者注意到,現(xiàn)代 CNN 設(shè)計通常遵循兩級分層結(jié)構(gòu),其中外層網(wǎng)絡(luò)控制空間分辨率的變化,內(nèi)層單元級架構(gòu)管理特定的分層計算 。目前關(guān)于 NAS 的絕大多數(shù)研究都遵循這個兩級分層設(shè)計,但只自動化搜索內(nèi)層網(wǎng)絡(luò),而手動設(shè)計外層網(wǎng)絡(luò) 。這種有限的搜索空間對密集圖像預(yù)測來說是一個問題,密集圖像預(yù)測對空間分辨率變化很敏感 。
因此在本研究中,作者提出了一種格子狀的網(wǎng)絡(luò)級搜索空間,該搜索空間可以增強 [92] 首次提出的常用單元級搜索空間,以形成分層架構(gòu)搜索空間 。本研究的目標(biāo)是聯(lián)合學(xué)習(xí)可重復(fù)單元結(jié)構(gòu)和網(wǎng)絡(luò)結(jié)構(gòu)的良好組合,用于語義圖像分割 。就架構(gòu)搜索方法而言,強化學(xué)習(xí)和進(jìn)化算法往往是計算密集型的——即便在低分辨率數(shù)據(jù)集 CIFAR-10 上,因此它們不太適合語義圖像分割任務(wù) 。
受 NAS 可微分公式 [68, 49] 的啟發(fā),本研究開發(fā)出與分層架構(gòu)搜索空間完全匹配的離散架構(gòu)的連續(xù)松弛 。分層架構(gòu)搜索通過隨機梯度下降實施 。當(dāng)搜索終止時,最好的單元架構(gòu)會被貪婪解碼,而最好的網(wǎng)絡(luò)架構(gòu)會通過維特比算法得到有效解碼 。作者在從 Cityscapes 數(shù)據(jù)集中裁剪的 321×321 圖像上直接搜索架構(gòu) 。

推薦閱讀