男人j进入女人j内部免费网站 ,久久久亚洲精品一区二区三区

▲圖1. 不同建模之間的視覺比較。簡單的幀級建模難以識別運動目標(biāo)（b）或被遮擋的小目標(biāo)（c）。相比之下，多級建模提供了一種聯(lián)合方式來利用長時信息和空間的顯著線索進行跨模態(tài)匹配，從而提供更準(zhǔn)確的結(jié)果（a）（d）
具有語義對齊的多級表征學(xué)習(xí)框架在這樣的背景下，邵嶺博士團隊提出了全新的多級學(xué)習(xí)框架來解決RVOS問題。該模型首先對視頻內(nèi)容進行細(xì)粒度分析，以實現(xiàn)多粒度的視頻表征：

在視頻粒度上，建議使用跨幀計算對整個視頻的長時依賴進行建模，讓視覺表征得以捕捉目標(biāo)的運動或動態(tài)場景信息。
在單幀粒度上，采用自注意力機制整合幀內(nèi)信息，從而描述整個圖像中的全局內(nèi)容。
在目標(biāo)粒度上，借助目標(biāo)檢測器來增強前景和背景的可分辨性，解決遮擋和小目標(biāo)的情況。

【ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破】在實現(xiàn)多級（或多粒度）視覺表征之后，團隊提出動態(tài)語義對齊（DSA），使它們與語言特征交互。為了有效捕捉特定粒度的語言信息，團隊首先根據(jù)不同的視覺線索分別生成對應(yīng)的基于視覺粒度的全局語言語義。再將生成的視覺語言特征與相應(yīng)的視覺特征相結(jié)合，為所指目標(biāo)提供特定粒度下的目標(biāo)表征。最后，團隊整合多粒度下的目標(biāo)表征和邊界信息，使用邊界感知分割（BAS）引導(dǎo)所有幀的分割預(yù)測。
具有語義對齊的多級表征學(xué)習(xí)經(jīng)實驗驗證，效果優(yōu)于其他競爭方法團隊亦分享了基于前述解決方案與兩個流行的RVOS數(shù)據(jù)集進行的定量及定性對比實驗，即：Refer-DAVIS17和Refer-YouTube-VOS 。
Refer-DAVIS驗證集：在用Refer-DAVIS進行訓(xùn)練之前，團隊在大規(guī)模的Refer-YouTube-VOS訓(xùn)練集中對模型進行預(yù)訓(xùn)練，并在Refer-DAVIS驗證集中對模型進行了性能測試。如表格1所示，在相同的“僅進行預(yù)訓(xùn)練”情況下，提出的方法與最新的模型URVOS相比有顯著的性能提升（J： 5.8% ， F： 6.0%）。在Refer-DAVIS訓(xùn)練集里對預(yù)訓(xùn)練模型進行微調(diào)后，提出的方法在所有指標(biāo)上都大大優(yōu)于所有競爭方法（與URVOS相比， J： 6.6% ， F： 6.1%）。此外，團隊還提供了其模型在指定圖像分割數(shù)據(jù)集RefCOCO上進行預(yù)訓(xùn)練的結(jié)果，其得分高于URVOS和RefVOS等基于幀的方法。

▲表格1.Refer-DAVIS17驗證集的定量評估，含區(qū)域相似度J ，邊界精確度F ， J&F的平均值
Refer-YouTube-VOS驗證集：我們可以進一步觀察新方法在Refer-YouTube-VOS驗證集上的性能。如表格2所示，其模型在所有指標(biāo)上都顯著優(yōu)于SOTA 。與URVOS相比，該模型將區(qū)域相似度J提高了3.1% ，輪廓精度F提高了1.8% 。這一方法在精度上也獲得了更高的分?jǐn)?shù)（例如， prec@0.8： 5.0% ， prec@0.9： 4.8%）。以上兩個數(shù)據(jù)集的結(jié)果均表明了具有語義對齊的多級表征學(xué)習(xí)的優(yōu)越性。

▲表格2. Refer-YouTube-VOS驗證集的定量評估，含區(qū)域相似度J ，邊界精確度F ， J&F的平均值，和成功百分比（prec@X）