日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

Cityscapes,cityscapes( 二 )


Auto-DeepLab 開發(fā)出與分層架構(gòu)搜索空間完全匹配的離散架構(gòu)的連續(xù)松弛 , 顯著提高架構(gòu)搜索的效率 , 降低算力需求 。深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在很多人工智能任務(wù)上取得了成功 , 包括圖像識(shí)別、語音識(shí)別、機(jī)器翻譯等 。雖然更好的優(yōu)化器 [36] 和歸一化技術(shù) [32, 79] 在其中起了重要作用 , 但很多進(jìn)步要?dú)w功于神經(jīng)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì) 。
在計(jì)算機(jī)視覺中 , 這適用于圖像分類和密集圖像預(yù)測(cè) 。表 1:本研究提出的模型 Auto-DeepLab 和其它雙層 CNN 架構(gòu)的對(duì)比 。主要區(qū)別有:(1) Auto-DeepLab 直接搜索用于語義分割的 CNN 架構(gòu);(2) Auto-DeepLab 搜索網(wǎng)絡(luò)級(jí)架構(gòu)和單元級(jí)架構(gòu);(3) Auto-DeepLab 的高效搜索在一個(gè) P100 GPU 上僅需 3 天 。
最近 , 在 AutoML 和 AI 民主化的影響下 , 人們對(duì)自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)架構(gòu)產(chǎn)生了極大興趣 , 自動(dòng)化設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)無需嚴(yán)重依賴專家經(jīng)驗(yàn)和知識(shí) 。更重要的是 , 去年神經(jīng)架構(gòu)搜索(NAS)成功找到了在大規(guī)模圖像分類任務(wù)上超越人類設(shè)計(jì)架構(gòu)的網(wǎng)絡(luò)架構(gòu) [92, 47, 61] 。圖像分類對(duì) NAS 來說是一個(gè)很好的起點(diǎn) , 因?yàn)樗亲罨A(chǔ)且研究最深入的高級(jí)識(shí)別任務(wù) 。
此外 , 該研究領(lǐng)域存在具有規(guī)模相對(duì)較小的基準(zhǔn)數(shù)據(jù)集(如 CIFAR-10) , 從而減少了計(jì)算量并加快了訓(xùn)練速度 。然而 , 圖像分類不應(yīng)該是 NAS 的終點(diǎn) , 現(xiàn)下的成功表明它可以擴(kuò)展至要求更高的領(lǐng)域 。在本文中 , 作者研究了用于語義圖像分割的神經(jīng)架構(gòu)搜索 。這是一項(xiàng)重要的計(jì)算機(jī)視覺任務(wù) , 它為輸入圖像的每個(gè)像素分配標(biāo)簽 , 如「人」或「自行車」 。
簡(jiǎn)單地移植圖像分類的方法不足以進(jìn)行語義分割 。在圖像分類中 , NAS 通常使用從低分辨率圖像到高分辨率圖像的遷移學(xué)習(xí) [92] , 而語義分割的最佳架構(gòu)必須在高分辨率圖像上運(yùn)行 。這表明 , 本研究需要:(1) 更松弛、更通用的搜索空間 , 以捕捉更高分辨率導(dǎo)致的架構(gòu)變體;(2) 更高效的架構(gòu)搜索技術(shù) , 因?yàn)楦叻直媛市枰挠?jì)算量更大 。
作者注意到 , 現(xiàn)代 CNN 設(shè)計(jì)通常遵循兩級(jí)分層結(jié)構(gòu) , 其中外層網(wǎng)絡(luò)控制空間分辨率的變化 , 內(nèi)層單元級(jí)架構(gòu)管理特定的分層計(jì)算 。目前關(guān)于 NAS 的絕大多數(shù)研究都遵循這個(gè)兩級(jí)分層設(shè)計(jì) , 但只自動(dòng)化搜索內(nèi)層網(wǎng)絡(luò) , 而手動(dòng)設(shè)計(jì)外層網(wǎng)絡(luò) 。這種有限的搜索空間對(duì)密集圖像預(yù)測(cè)來說是一個(gè)問題 , 密集圖像預(yù)測(cè)對(duì)空間分辨率變化很敏感 。
因此在本研究中 , 作者提出了一種格子狀的網(wǎng)絡(luò)級(jí)搜索空間 , 該搜索空間可以增強(qiáng) [92] 首次提出的常用單元級(jí)搜索空間 , 以形成分層架構(gòu)搜索空間 。本研究的目標(biāo)是聯(lián)合學(xué)習(xí)可重復(fù)單元結(jié)構(gòu)和網(wǎng)絡(luò)結(jié)構(gòu)的良好組合 , 用于語義圖像分割 。就架構(gòu)搜索方法而言 , 強(qiáng)化學(xué)習(xí)和進(jìn)化算法往往是計(jì)算密集型的——即便在低分辨率數(shù)據(jù)集 CIFAR-10 上 , 因此它們不太適合語義圖像分割任務(wù) 。
受 NAS 可微分公式 [68, 49] 的啟發(fā) , 本研究開發(fā)出與分層架構(gòu)搜索空間完全匹配的離散架構(gòu)的連續(xù)松弛 。分層架構(gòu)搜索通過隨機(jī)梯度下降實(shí)施 。當(dāng)搜索終止時(shí) , 最好的單元架構(gòu)會(huì)被貪婪解碼 , 而最好的網(wǎng)絡(luò)架構(gòu)會(huì)通過維特比算法得到有效解碼 。作者在從 Cityscapes 數(shù)據(jù)集中裁剪的 321×321 圖像上直接搜索架構(gòu) 。
搜索非常高效 , 在一個(gè) P100 GPU 上僅需 3 天 。作者在多個(gè)語義分割基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn) , 包括 Cityscapes、PASCAL VOC 2012 和 ADE20K 。在未經(jīng) ImageNet 預(yù)訓(xùn)練的情況下 , 最佳 Auto-DeepLab 模型在 Cityscapes 測(cè)試集上的結(jié)果超過 FRRN-B 8.6% , 超過 GridNet 10.9% 。

推薦閱讀