日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破( 二 )


ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破


▲圖1. 不同建模之間的視覺比較 。簡單的幀級建模難以識別運動目標(biāo)(b)或被遮擋的小目標(biāo)(c) 。相比之下 , 多級建模提供了一種聯(lián)合方式來利用長時信息和空間的顯著線索進行跨模態(tài)匹配 , 從而提供更準(zhǔn)確的結(jié)果(a)(d)
具有語義對齊的多級表征學(xué)習(xí)框架在這樣的背景下 , 邵嶺博士團隊提出了全新的多級學(xué)習(xí)框架來解決RVOS問題 。該模型首先對視頻內(nèi)容進行細(xì)粒度分析 , 以實現(xiàn)多粒度的視頻表征:
  • 在視頻粒度上 , 建議使用跨幀計算對整個視頻的長時依賴進行建模 , 讓視覺表征得以捕捉目標(biāo)的運動或動態(tài)場景信息 。
  • 在單幀粒度上 , 采用自注意力機制整合幀內(nèi)信息 , 從而描述整個圖像中的全局內(nèi)容 。
  • 在目標(biāo)粒度上 , 借助目標(biāo)檢測器來增強前景和背景的可分辨性 , 解決遮擋和小目標(biāo)的情況 。
【ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破】在實現(xiàn)多級(或多粒度)視覺表征之后 , 團隊提出動態(tài)語義對齊(DSA) , 使它們與語言特征交互 。為了有效捕捉特定粒度的語言信息 , 團隊首先根據(jù)不同的視覺線索分別生成對應(yīng)的基于視覺粒度的全局語言語義 。再將生成的視覺語言特征與相應(yīng)的視覺特征相結(jié)合 , 為所指目標(biāo)提供特定粒度下的目標(biāo)表征 。最后 , 團隊整合多粒度下的目標(biāo)表征和邊界信息 , 使用邊界感知分割(BAS)引導(dǎo)所有幀的分割預(yù)測 。
具有語義對齊的多級表征學(xué)習(xí)經(jīng)實驗驗證 , 效果優(yōu)于其他競爭方法團隊亦分享了基于前述解決方案與兩個流行的RVOS數(shù)據(jù)集進行的定量及定性對比實驗 , 即:Refer-DAVIS17和Refer-YouTube-VOS 。
Refer-DAVIS驗證集:在用Refer-DAVIS進行訓(xùn)練之前 , 團隊在大規(guī)模的Refer-YouTube-VOS訓(xùn)練集中對模型進行預(yù)訓(xùn)練 , 并在Refer-DAVIS驗證集中對模型進行了性能測試 。如表格1所示 , 在相同的“僅進行預(yù)訓(xùn)練”情況下 , 提出的方法與最新的模型URVOS相比有顯著的性能提升(J: 5.8% , F: 6.0%) 。在Refer-DAVIS訓(xùn)練集里對預(yù)訓(xùn)練模型進行微調(diào)后 , 提出的方法在所有指標(biāo)上都大大優(yōu)于所有競爭方法(與URVOS相比 , J: 6.6% , F: 6.1%) 。此外 , 團隊還提供了其模型在指定圖像分割數(shù)據(jù)集RefCOCO上進行預(yù)訓(xùn)練的結(jié)果 , 其得分高于URVOS和RefVOS等基于幀的方法 。
ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破


▲表格1.Refer-DAVIS17驗證集的定量評估 , 含區(qū)域相似度J , 邊界精確度F , J&F的平均值
Refer-YouTube-VOS驗證集:我們可以進一步觀察新方法在Refer-YouTube-VOS驗證集上的性能 。如表格2所示 , 其模型在所有指標(biāo)上都顯著優(yōu)于SOTA 。與URVOS相比 , 該模型將區(qū)域相似度J提高了3.1% , 輪廓精度F提高了1.8% 。這一方法在精度上也獲得了更高的分?jǐn)?shù)(例如 , prec@0.8: 5.0% , prec@0.9: 4.8%) 。以上兩個數(shù)據(jù)集的結(jié)果均表明了具有語義對齊的多級表征學(xué)習(xí)的優(yōu)越性 。
ai比對技術(shù) 特斯聯(lián)AI研發(fā)突破


▲表格2. Refer-YouTube-VOS驗證集的定量評估 , 含區(qū)域相似度J , 邊界精確度F , J&F的平均值 , 和成功百分比(prec@X)

推薦閱讀