日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破

圖像分割技術(shù)是計算機(jī)視覺領(lǐng)域的重要研究方向 , 也是該領(lǐng)域其他應(yīng)用的一個重要前期步驟 。近些年來 , 隨著深度學(xué)習(xí)技術(shù)的逐步深入 , 圖像分割技術(shù)有了突飛猛進(jìn)的發(fā)展 , 尤其在場景物體分割、人體背景分割、三維重建等技術(shù)在無人駕駛、增強(qiáng)現(xiàn)實等城市數(shù)字化領(lǐng)域得到了廣泛應(yīng)用 。而近日 , 特斯聯(lián)科技集團(tuán)首席科學(xué)家兼特斯聯(lián)國際總裁邵嶺博士及團(tuán)隊提出具有語義對齊的多級表征學(xué)習(xí)框架解決指定視頻目標(biāo)分割(Referring Video Object Segmentation, RVOS)中存在的問題 , 在該領(lǐng)域形成科研突破 , 且相關(guān)研究成果(標(biāo)題為:Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能領(lǐng)域頂級會議CVPR(國際計算機(jī)視覺與模式識別會議)收錄 。
總體而言 , 該項研究突破可概括為三個方面:首先 , 提出了一個基于多級表征學(xué)習(xí)的RVOS新框架 。它通過更豐富、更結(jié)構(gòu)化的視頻表征 , 排除了單幀建模的局限性 , 保證了更加精準(zhǔn)的語言-視覺語義對齊;第二 , 引入了動態(tài)語義對齊(DSA) , 它在匹配語言語義與不同級別的視覺表征時采用了更有效的自適應(yīng)對齊;第三 , 該方法在兩個具有挑戰(zhàn)性的數(shù)據(jù)集上實現(xiàn)了引人注目的表現(xiàn) , 包括Refer-DAVIS17和Refer-YouTube-VOS 。值得注意的是 , 對于Refer-DAVIS17上的J , 該方法比最好的單幀建模方法獲得了6.6%的顯著提升 , 同時在兩個數(shù)據(jù)集上實現(xiàn)了53.2FPS的高推理速度 。
指定視頻目標(biāo)分割(RVOS)是一種廣泛應(yīng)用于視頻編輯、虛擬現(xiàn)實和人機(jī)交互的 AI 技術(shù) , 旨在基于特定自然語言表達(dá) , 從視頻中預(yù)測最相關(guān)的視覺目標(biāo) 。與常規(guī)的無監(jiān)督或半監(jiān)督視頻目標(biāo)分割相比 , RVOS需要實現(xiàn)語言文本和視頻內(nèi)容之間的跨模態(tài)理解 , 而不是通過視覺顯著性或關(guān)鍵幀標(biāo)注來定位目標(biāo) 。
幀級建模兩大局限性致 RVOS 精確度較低我們可以通過人類認(rèn)知系統(tǒng)簡單理解跨模態(tài)數(shù)據(jù)的含義 。當(dāng)人類在語言的引導(dǎo)下識別一個目標(biāo)時 , 通常會采用三個步驟:1)觀察目標(biāo)的外觀和方位(即基于幀) , 2)翻看多幀觀察目標(biāo)的運(yùn)動狀態(tài)(即基于視頻) , 3)將更多的注意力轉(zhuǎn)移到遮擋或較小的目標(biāo)上(即基于目標(biāo)) 。
目前 , 大多數(shù)方法只是簡單地將基于圖像的方法應(yīng)用于視頻跨模態(tài)理解 。它們或者使用指定圖像定位(referring image localization)來生成目標(biāo)邊界框作為提案 , 或者直接使用指定圖像分割(referring image segmentation) 。然而 , 與人類認(rèn)知系統(tǒng)相比 , 這些幀級建模方法存在兩個局限性:忽略長時信息 , 缺乏對空間顯著目標(biāo)的關(guān)注 。
前述局限性導(dǎo)致了視覺和語言兩種模態(tài)之間的錯位 , 進(jìn)而產(chǎn)生不準(zhǔn)確的分割結(jié)果 。舉例來說 , 如圖1所示 , 當(dāng)我們給定一個輸入視頻及其對應(yīng)的描述 , 比如“一只獅子正在向右行走”時 , RVOS的目標(biāo)是從視頻中分割出運(yùn)動的獅子 。但由于視頻中有多個獅子 , 僅利用單幀外觀信息無法識別出正確的獅子(如圖1(b)所示) 。在這里 , 語言所指的目標(biāo)具有時間上的運(yùn)動狀態(tài) , 因此需要觀察多幀來識別特定動作 。此外 , “獅子臥在高高的巖石上”指的是被遮擋的小獅子 。然而 , 幀級建模只關(guān)注每一幀的全局語義 , 而忽略了一些更重要的、更具有代表性的視覺區(qū)域 , 這也會導(dǎo)致指向錯誤的目標(biāo)(如圖1(c)所示) 。

推薦閱讀