• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      圖像指代分割研究綜述

      2022-07-22 13:36:36韋世奎
      信號處理 2022年6期
      關(guān)鍵詞:指代模態(tài)文本

      邱 爽 趙 耀 韋世奎

      (1.北京交通大學(xué)信息科學(xué)研究所,北京 100044;2.現(xiàn)代信息科學(xué)與網(wǎng)絡(luò)技術(shù)北京市重點實驗室,北京 100044)

      1 引言

      圖像指代分割問題是計算機視覺(Computer Vi?sion,簡稱CV)與自然語言處理(Nature Language Processing,簡稱NLP)交叉領(lǐng)域中的一個重要問題,它要求計算機能夠同時理解圖像與文本兩種模態(tài)的數(shù)據(jù),根據(jù)文本在圖像中進(jìn)行目標(biāo)區(qū)域的像素級分類。近年來,圖像以其豐富的內(nèi)容信息常常在信息傳遞中作為載體,發(fā)揮重要的作用。隨著具有拍照功能的智能設(shè)備的普及以及平安城市工程的啟動,每天都有大量的圖像和視頻數(shù)據(jù)產(chǎn)生。同時,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與人們分享習(xí)慣的轉(zhuǎn)變,大量的視覺數(shù)據(jù)也在網(wǎng)絡(luò)上快速傳播。另一方面,以GPU 為代表的高性能計算工具被頻繁地應(yīng)用于研究與產(chǎn)品中,大大提升了視覺任務(wù)的處理速度。在這種背景下,計算機視覺方向取得了令人矚目的進(jìn)展和突破。與圖像等視覺數(shù)據(jù)相比,文本數(shù)據(jù)具有更利于理解的特點,人們可以通過文本直觀地表達(dá)需求。因此,由于圖像豐富的信息和文本易于理解的特點,以圖像與文本數(shù)據(jù)為研究對象的多模態(tài)任務(wù)是人工智能發(fā)展中重要的研究方向。

      圖像指代分割任務(wù)的目標(biāo)是:給定輸入圖像和指代描述,通過對指代描述進(jìn)行分析理解在圖像中分割出相應(yīng)的物體或區(qū)域。與圖像描述生成[1-2]、視覺問答系統(tǒng)[3-4]等利用圖像文本數(shù)據(jù)的問題不同,該任務(wù)中的文本特指指代描述。指代描述關(guān)注的是被描述目標(biāo)在圖像中具有的唯一屬性,能夠使該目標(biāo)與其他區(qū)域區(qū)分開而不造成理解上的歧義,即當(dāng)圖像中包含同一類別的多個實例時,指代描述能夠準(zhǔn)確地概括出被指定目標(biāo)或區(qū)域具有的唯一特點,包括該區(qū)域的類別、外觀和空間位置關(guān)系等等。指代描述廣泛出現(xiàn)在日常生活中,比如“請把桌子上最上面的雜志遞給我”。隨著智能機器人、無人車和以語言為接口的軟件的發(fā)展,人類對于計算機能夠根據(jù)描述定位目標(biāo)的需求越來越迫切。在這種需求促使下,與指代描述相關(guān)的視覺任務(wù)得到了研究者的關(guān)注。這類視覺任務(wù)主要包含三個方面,即生成、理解和分割。生成任務(wù)與圖像描述生成類似,但是要求生成的文本描述圖像中指定的具體目標(biāo)而不是針對整幅圖像。指代描述理解主要進(jìn)行對被描述區(qū)域的目標(biāo)級定位,即根據(jù)指代描述在圖像中定位被指定的目標(biāo)位置及大小。指代分割是與理解任務(wù)相比更加細(xì)粒度的解析,不僅需要確定目標(biāo)位置,還要將目標(biāo)邊框細(xì)化至目標(biāo)輪廓,獲得像素級的定位結(jié)果。圖像指代分割與語義分割和實例分割任務(wù)也有一定的相似性,但是它旨在分割出描述特定的區(qū)域,而不是某一類別的全部區(qū)域。圖像指代分割是一項具有挑戰(zhàn)性的任務(wù),首先,指代描述的長度不固定,可以是幾個單詞,也可以是多輪對話,隨著描述長度的變化,對于文本的解析難度也會大大提升。其次,文本具有明確的語言結(jié)構(gòu)和語法規(guī)則,可以通過解析獲得結(jié)構(gòu)化信息。而圖像中包含較多的噪聲并且缺乏結(jié)構(gòu)性信息,難以與文本共同理解并進(jìn)行匹配。因此,在指代分割任務(wù)中,多模態(tài)信息的融合與匹配是關(guān)鍵的難點問題。

      圖像指代分割問題的研究具有廣泛的實際價值和長遠(yuǎn)的應(yīng)用前景,是智能化生活的重要部分。在構(gòu)建平安城市、智慧城市方面,圖像指代分割可以在僅通過對于嫌疑人外表或穿著的描述,在大量監(jiān)控視頻中尋找目標(biāo),協(xié)助對目標(biāo)的識別和跟蹤,大大節(jié)省人力資源。在智能家居方面,圖像指代分割可用于自然語言巡航系統(tǒng),通過語言指令使機器人在室內(nèi)不同位置完成拾取等操作。在生活娛樂方面,圖像指代目標(biāo)分割可以把語言作為各種應(yīng)用與智能軟件的交互接口,從而避免人工進(jìn)行復(fù)雜的操作[5]。

      2 現(xiàn)有圖像指代分割方法介紹

      圖像指代分割是計算機視覺與自然語言處理交叉領(lǐng)域的熱點問題。由于計算機視覺和自然語言處理技術(shù)的日益成熟,和指代分割具有的重要學(xué)術(shù)研究價值和廣泛實際應(yīng)用價值,該任務(wù)吸引了越來越多的關(guān)注。隨著深度學(xué)習(xí)的快速發(fā)展和廣泛應(yīng)用,尤其是一系列具有代表性的網(wǎng)絡(luò)模型在圖像分類、語義分割等任務(wù)上獲得了巨大成功,在圖像指代分割任務(wù)上也取得了突破性的進(jìn)展。近年來涌現(xiàn)了大量的相關(guān)工作,本文將現(xiàn)有的代表性的工作進(jìn)行了總結(jié),如圖1 所示。根據(jù)對多模態(tài)信息的編碼解碼方式,將現(xiàn)有的圖像指代分割工作分為多模態(tài)信息融合與多尺度信息融合兩大類。其中,根據(jù)多模態(tài)信息融合方式的不同,又將多模態(tài)信息融合分為聯(lián)合嵌入方法、模塊化方法和基于圖的方法三類。以下將對這些方法進(jìn)行詳細(xì)介紹。

      2.1 基于多模態(tài)信息融合的指代分割方法

      對于圖像指代分割任務(wù),最直觀的想法是將圖像和指代描述編碼到相同的向量空間中進(jìn)行多模態(tài)信息的融合。對于圖像的表示,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN)[6-12]可獲取豐富的圖像特征表示,并用于各種視覺任務(wù)。對于文本表示,以長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和BERT 網(wǎng)絡(luò)[13-14]為代表的模型已廣泛用于句子特征編碼,并在許多順序建模任務(wù)中表現(xiàn)出良好的性能?;诙嗄B(tài)信息融合的指代分割方法將兩種模態(tài)信息融合后,采用現(xiàn)有的語義分割網(wǎng)絡(luò)進(jìn)行最終的分割結(jié)果預(yù)測。這類方法根據(jù)融合方式的不同,主要包括三類,即聯(lián)合嵌入方法、模塊方法和基于圖的方法。

      2.1.1 聯(lián)合嵌入方法

      聯(lián)合嵌入方法主要包括兩類方法:基于CNNLSTM框架的方法和基于注意力機制的方法。

      CNN-LSTM 框架是最傳統(tǒng)最直觀的融合方式,分別利用CNN 和LSTM 提取描述和整幅圖像的特征,之后利用全卷積分割網(wǎng)絡(luò)輸出最終結(jié)果,方法框架如圖2所示。具體來說,Hu等人[15]提出了圖像指代分割方法(Segmentation from Natural Language Expression,簡稱SNLE)。該方法將圖像和文本特征與歸一化的空間坐標(biāo)串聯(lián),利用與FCN-32S 類似的一系列卷積層與上采樣得到預(yù)測的掩膜圖,并與真實標(biāo)注計算損失。雖然SNLE 初步達(dá)到了指代分割的目的,但是其簡單的結(jié)構(gòu)難以取得足夠精確的分割結(jié)果。Liu 等人指出,人類在進(jìn)行目標(biāo)指代的過程中,人眼會在閱讀指代描述時,在文本與圖像間來回移動后作出判斷,即兩種模態(tài)信息的交互存在于人的整個決策過程中而不是僅在句子結(jié)尾。根據(jù)這種思路,提出了循環(huán)多模態(tài)交互網(wǎng)絡(luò)(Recur?rent Multimodal Interaction,簡稱RMI)[16],利用多模態(tài)convLSTM 網(wǎng)絡(luò),在對文本中每個單詞編碼時都加入圖像特征進(jìn)行多模態(tài)信息融合,從而獲取更豐富的多模態(tài)特征。類似地,Margffoy-Tuay 等人[17]提出了動態(tài)多模態(tài)網(wǎng)絡(luò)(Dynamic Multimodal Network,簡稱DMN),同樣將每個單詞的特征都與圖像特征進(jìn)行融合,之后利用SRU 網(wǎng)絡(luò)將單詞級的多模態(tài)特征進(jìn)行整合后進(jìn)行后續(xù)的分割。這類基于CNNLSTM 框架的指代分割方法雖然簡單有效,但是忽略了指代描述中復(fù)合的語言表達(dá)和復(fù)雜的結(jié)構(gòu)。在采用順序的方式進(jìn)行指代描述的編碼時,忽略了句子中各部分的依賴關(guān)系與不同的重要程度,導(dǎo)致了不重要或者不相關(guān)的單詞引入混淆信息造成的理解偏差。

      注意力機制在許多視覺和語言領(lǐng)域[18-20]發(fā)揮了重要作用。由于注意力機制能夠在視覺信息和文本信息之間建立元素連接,從而在對每個單詞進(jìn)行編碼時可以利用來自某些特定圖像區(qū)域(即感興趣區(qū)域)的信息,獲得語義更豐富的多模態(tài)信息表示。因此,注意力機制也被引入圖像指代描述理解的相關(guān)任務(wù)中,獲得了眾多成果[21]。Ye 等人[22-23]提出了跨模態(tài)自注意力網(wǎng)絡(luò)(Cross-Modal Self-Attention Network,簡稱CMSA),通過自注意力方法跨模態(tài)地進(jìn)行特征融合,使得網(wǎng)絡(luò)模型能夠同時自適應(yīng)地聚焦于圖像中的重要區(qū)域和語言描述中的信息關(guān)鍵詞,有效地捕捉語言和視覺特征之間的長期依賴關(guān)系,充分捕獲全局交互信息,更好地進(jìn)行對兩種模態(tài)數(shù)據(jù)的語義理解與相關(guān)區(qū)域的分割。Hu等人[24]提出了雙向關(guān)系推理網(wǎng)絡(luò)(Bi-directional Cross-modal Atten?tion Module,簡稱BCAM)構(gòu)建跨模態(tài)信息的依賴關(guān)系。該方法同時利用兩種模態(tài)信息對彼此的影響,構(gòu)建了雙向的注意力關(guān)系,使用視覺引導(dǎo)的文本注意力學(xué)習(xí)與每個視覺區(qū)域相對應(yīng)的文本上下文信息。具體來說,首先構(gòu)造一個視覺引導(dǎo)的語言注意模塊學(xué)習(xí)每個視覺區(qū)域的上下文信息。其次,語言引導(dǎo)的視覺注意模塊利用學(xué)習(xí)的語言上下文指導(dǎo)視覺特征在任意兩個位置之間的空間依賴性學(xué)習(xí)。通過不同模態(tài)之間的相互學(xué)習(xí),獲得的多模態(tài)特征能夠豐富目標(biāo)區(qū)域的上下文表示,從而準(zhǔn)確地表征包含語義上下文信息的視覺區(qū)域和指代描述,處理視覺區(qū)域和描述單詞間更復(fù)雜和非順序的依賴關(guān)系。然而基于注意力機制的方法仍然存在一些問題,由于指代分割數(shù)據(jù)集不提供相應(yīng)的注意力標(biāo)注信息,這類方法不能保證學(xué)習(xí)到正確的注意力分配,導(dǎo)致分割誤差的出現(xiàn)。

      2.1.2 模塊化方法

      模塊化網(wǎng)絡(luò)已成功應(yīng)用于許多任務(wù),如視覺問答[3-4]、視覺推理[25]、關(guān)系建模[26]和多任務(wù)強化學(xué)習(xí)[27]。在圖像指代分割任務(wù)中,模塊化方法不同于上述基于聯(lián)合嵌入的工作只是簡單地將所有特征串聯(lián)起來,而是考慮到描述中提供的不同信息之間的差異,分別進(jìn)行理解與匹配。具體來說,模塊化方法通過將指代描述分解為幾個不同的組件,之后通過模塊化網(wǎng)絡(luò)將各個組件與相應(yīng)的圖像區(qū)域進(jìn)行匹配,實現(xiàn)對目標(biāo)位置的推理,方法框架如圖3所示。

      Yu 等人[28]提出了模塊化注意網(wǎng)絡(luò)(Modular At?tention Network,簡稱MAttNet)。MAttNet 將自然語言指代描述分解為三個模塊化組件,分別與目標(biāo)外觀、位置和與其他對象的關(guān)系有關(guān)。其中,目標(biāo)外觀模塊處理目標(biāo)的類別、顏色等屬性,位置模塊處理目標(biāo)在圖像中的絕對位置和相對位置,關(guān)系模塊處理物體間的交互關(guān)系。每個模塊都具有不同的結(jié)構(gòu),并在不影響其他模塊的情況下單獨學(xué)習(xí)參數(shù)。MAttNet 不依賴外部語言解析器,而是通過學(xué)習(xí)注意力機制自動解析指代描述。最后計算三個模塊的匹配分?jǐn)?shù)來衡量候選區(qū)域與指代描述之間的相關(guān)性,并采用Mask-RCNN網(wǎng)絡(luò)同時預(yù)測指代分割結(jié)果。模塊化方法雖然取得了指代分割任務(wù)的突破性進(jìn)展,但是模塊化網(wǎng)絡(luò)過分簡化了語言結(jié)構(gòu),并且文本和圖像候選區(qū)域的特征是獨立學(xué)習(xí)或設(shè)計的。這導(dǎo)致在指代描述復(fù)雜的情況下,不同模態(tài)的特征很難相互適應(yīng)。

      2.1.3 基于圖的方法

      基于圖的方法被提出用來更好地處理圖像指代分割中復(fù)雜的文本描述和對象間的交互關(guān)系,方法框架如圖4 所示。Huang 等人[29]提出了一種跨模態(tài)遞進(jìn)理解的方法(Cross-Modal Progressive Compre?hension,簡稱CMPC),該方法通過漸進(jìn)的方式,逐步利用文本描述中不同類型的單詞,并利用圖結(jié)構(gòu)分割所指代的目標(biāo)。具體來說,CMPC 首先使用文本中的實體詞和屬性詞感知圖像中所有被描述所提及的相關(guān)對象。之后,構(gòu)造一個完全連通的空間圖,其中每個頂點對應(yīng)一個圖像區(qū)域的多模態(tài)特征,同時通過使用指代描述中的表達(dá)關(guān)系的單詞自適應(yīng)地構(gòu)建邊。最后通過圖卷積網(wǎng)絡(luò),突出被指代目標(biāo)的特征,抑制與文本不相關(guān)的區(qū)域,實現(xiàn)圖像與指代描述中目標(biāo)間交互關(guān)系的對應(yīng),從而生成準(zhǔn)確的分割結(jié)果。Hui等人[30]提出了一種語言結(jié)構(gòu)引導(dǎo)的上下文建模方法(Linguistic Structure Guided Context Modeling,簡稱LSCM)。該方法通過構(gòu)建一個依賴分析樹的圖結(jié)構(gòu)(DPT-WG),經(jīng)過聚集-約束傳播-分布三個步驟為每個單詞學(xué)習(xí)一個包含多模態(tài)上下文信息的特征表示。具體來說,首先融合視覺和描述信息,之后通過跨模態(tài)注意力機制為每個節(jié)點生成多模態(tài)特征,最后利用DPT-WG 結(jié)構(gòu),根據(jù)描述中單詞間的依賴關(guān)系選擇性地抑制圖結(jié)構(gòu)中部分邊的權(quán)重,使多模態(tài)表示更加貼合描述文本,有助于獲得更準(zhǔn)確的分割結(jié)果。

      2.2 基于多尺度信息融合的指代分割方法

      由于指代分割任務(wù)中存在尺度差異很大的分割目標(biāo),僅僅使用視覺特征提取網(wǎng)絡(luò)的高維特征難以準(zhǔn)確感知目標(biāo)區(qū)域,同時在視覺特征提取時較高的下采樣率也導(dǎo)致了高維特征大量缺失物體細(xì)節(jié)和輪廓信息,造成分割結(jié)果在目標(biāo)邊緣區(qū)域不準(zhǔn)確預(yù)測。針對這個問題,基于多尺度特征融合的方法被隨之提出,方法框架如圖5 所示。Li 等人[31]提出了循環(huán)優(yōu)化網(wǎng)絡(luò)(Recurrent Refinement Network,簡稱RRN),利用圖像特征提取骨架網(wǎng)絡(luò)中固有的多尺度金字塔特征,按照分辨率從小到大的順序輸入到convLSTM 網(wǎng)絡(luò)中逐步細(xì)化分割掩膜,增加特征的細(xì)節(jié)信息。具體來說,RRN 網(wǎng)絡(luò)包含兩部分,首先利用CNN-LSTM 框架對多模態(tài)特征進(jìn)行編碼和融合,得到目標(biāo)區(qū)域的粗略定位。之后將融合結(jié)果作為convLSTM 網(wǎng)絡(luò)的初始輸入,并按分辨率從小到大的順序逐步輸入金字塔視覺特征,對目標(biāo)區(qū)域表示進(jìn)行逐步精煉,最終輸出一個像素級的前景掩膜。這個步驟模仿了人類解決指代分割的方式,即首先定位感興趣的目標(biāo),然后逐步描繪出目標(biāo)的具體輪廓。在此基礎(chǔ)上,Ye 等人[32]提出了一個雙重convLSTM 網(wǎng)絡(luò)(Dual Convolutional LSTM Network,簡稱DCLN),通過指代描述的特征分別為每個尺度的視覺特征生成一個空間注意力權(quán)重圖,并與視覺特征相乘從而突出受關(guān)注的重要區(qū)域,之后與RRN 網(wǎng)絡(luò)相同,按分辨率順序輸入到convLSTM網(wǎng)絡(luò),經(jīng)過循環(huán)細(xì)化最終獲得同時包含豐富語義信息和目標(biāo)細(xì)節(jié)的多尺度特征,準(zhǔn)確地完成圖像指代分割。

      3 數(shù)據(jù)集與評價指標(biāo)

      3.1 圖像指代分割任務(wù)的相關(guān)數(shù)據(jù)集

      圖像指代分割數(shù)據(jù)集主要包含以下幾部分標(biāo)注信息,即圖像、與圖像中某一區(qū)域?qū)?yīng)的指代描述以及該區(qū)域?qū)?yīng)的像素級標(biāo)注。近年來,圖像指代分割數(shù)據(jù)集的陸續(xù)公開,對該任務(wù)的研究發(fā)展起到重要的促進(jìn)作用。本節(jié)介紹了現(xiàn)有的幾個常用指代分割數(shù)據(jù)集,并將其詳細(xì)構(gòu)成總結(jié)在表1中。

      表1 圖像指代分割數(shù)據(jù)集的統(tǒng)計信息Tab.1 Statistics of the datasets for Referring Image Segmentation

      早期的圖像指代分割數(shù)據(jù)集由于標(biāo)注困難主要集中在中小型的人工數(shù)據(jù)集。2014 年,Kazemza?deh 等人[33]推出了第一個大規(guī)模指代分割數(shù)據(jù)集ReferItGame,之后,隨著圖像語義分割任務(wù)和深度學(xué)習(xí)的發(fā)展,越來越多的指代分割數(shù)據(jù)集也不斷公開。下面詳細(xì)介紹圖像指代分割任務(wù)的數(shù)據(jù)集:

      ReferItGame數(shù)據(jù)集[33]基于Image CLEF IAPR[34]圖像檢索數(shù)據(jù)集構(gòu)建,其中圖像區(qū)域和像素標(biāo)簽來源于SAIAPR TC-12 數(shù)據(jù)集[35]。該數(shù)據(jù)集的指代描述是通過一個兩人游戲收集的,一個玩家根據(jù)圖像中指定的目標(biāo)進(jìn)行描述,另一個玩家根據(jù)圖像和收到的描述判斷圖像中所描述對象的位置。如果找到的位置正確,兩個玩家都獲得游戲分?jǐn)?shù),并交換位置進(jìn)行下一張圖像。如果錯誤,將保持當(dāng)前角色進(jìn)行后續(xù)游戲。該數(shù)據(jù)集指代描述的特點是,當(dāng)圖像中目標(biāo)類別只包含一個對象時,描述者相比于描述周圍區(qū)域更傾向于用簡短的類別描述該對象。除此之外,該數(shù)據(jù)集最大的不同是除了包含前景物體,還可能包含一些背景區(qū)域,比如“天空”和“墻”等。

      UNC 和UNC+數(shù)據(jù)集[36]的圖像和像素級標(biāo)注來源于MSCOCO 數(shù)據(jù)集[37],指代描述同樣通過ReferIt Game 游戲收集。這兩個數(shù)據(jù)集均包含一個訓(xùn)練集、一個驗證集和兩個測試集。其中,測試集A 中的目標(biāo)類別大多為人,而測試集B 中包含更多其他類別的對象。值得注意的是,與UNC 數(shù)據(jù)集相比,UNC+數(shù)據(jù)集中的指代描述不包含位置詞,著重在目標(biāo)外觀屬性方面描述。

      Google-Ref 數(shù)據(jù)集[38]同樣基于MSCOCO 數(shù)據(jù)集[35]構(gòu)建,指代描述在非交互環(huán)境中收集。具體來說,一組人員為圖像中的目標(biāo)編寫自然語言描述,另一組人員根據(jù)圖像與描述判斷對象位置。如果預(yù)測位置與正確區(qū)域重疊,則該描述作為有效數(shù)據(jù)添加到數(shù)據(jù)集中。如果不重疊則重新為該目標(biāo)編寫指代描述。這樣的編寫和驗證的步驟交叉重復(fù)三次,獲得最終的數(shù)據(jù)集。與其他指代分割數(shù)據(jù)集相比,該數(shù)據(jù)集擁有更長的句子與更復(fù)雜的語法結(jié)構(gòu)和對象依賴關(guān)系,而不是僅有簡單的類別單詞或短語。

      GuessWhat?!數(shù) 據(jù) 集[39]基 于MSCOCO 數(shù) 據(jù)集[37]構(gòu)建,指代描述同樣通過雙人合作游戲收集。在游戲中,兩個玩家均觀察同一幅包含多個目標(biāo)的圖像。一個玩家被隨機分配其中一個目標(biāo),另一個玩家作為提問者,通過對前一個玩家進(jìn)行一系列是非提問確定目標(biāo)是什么。

      3.2 圖像指代分割任務(wù)的性能評價指標(biāo)

      為了能夠公平地對比不同指代分割方法的性能,需要適當(dāng)?shù)脑u價指標(biāo)進(jìn)行評測。指代分割常用的評價指標(biāo)與圖像語義分割任務(wù)類似,包括全局交并比和精度百分比,具體定義如下:

      全局交并比(Overall Intersection over Union,簡稱Overall IoU)作為語義分割評估的標(biāo)準(zhǔn)度量,同時考慮了每個類別的誤檢值和漏檢值。考慮到在圖像指代分割任務(wù)中,標(biāo)簽類別只包含與指代描述相關(guān)或不相關(guān)兩個類別,因此,通過公式(1)計算Over?all IoU:

      其中,N為測試樣本總數(shù),Pi表示第i個樣本預(yù)測結(jié)果,Gi表示第i個樣本的掩膜標(biāo)注圖。

      精度百分比(Prec@X)表示在測試集中預(yù)測結(jié)果與真實值的IoU 超過閾值X 的樣本數(shù)目占全部樣本數(shù)目的百分比。例如Prec@0.5 表示預(yù)測結(jié)果與真實標(biāo)注的IoU 大于0.5 的樣本占全部樣本的百分比。在指代分割評測中,閾值X 通常按照從易到難設(shè)置5個數(shù)值,分別為0.5、0.6、0.7、0.8和0.9。

      4 現(xiàn)有指代分割方法結(jié)果評測

      現(xiàn)有圖像指代分割方法在四個常用數(shù)據(jù)集上的結(jié)果總結(jié)在表2 中,并列出了每種方法對應(yīng)的類別方便比較。

      表2 現(xiàn)有圖像指代分割方法結(jié)果對比Tab.2 Comparison with state-of-the-art methods for Referring Image Segmentation

      早期的圖像指代分割工作主要集中于以CNNLSTM 框架為代表的聯(lián)合嵌入方法。其中,SNLE 方法作為最早的圖像指代分割工作,是該領(lǐng)域內(nèi)最重要的基線結(jié)果,通過兩階段的訓(xùn)練方式可以基本達(dá)到指代分割的目的,并在ReferIt Game 數(shù)據(jù)集上取得了不錯的結(jié)果。之后的一系列研究延續(xù)SNLE 的思路,以不同的聯(lián)合嵌入方式進(jìn)行多模態(tài)信息融合,并以端到端的方式訓(xùn)練模型。RMI 在SNLE 方法的基礎(chǔ)上加入了循環(huán)多模態(tài)交互方式,顯示了通過模擬人類進(jìn)行指代分割的方式的有效性。DMN和KWA 通過不同的聯(lián)合嵌入方式也分別獲得了性能的提升。雖然采用CNN-LSTM 框架簡潔有效,但是由于這類方法忽略了指代描述中依賴關(guān)系,限制了其性能表現(xiàn)。

      MAttNet 具有非常突出的性能,在目標(biāo)定位和像素級分割上都實現(xiàn)了性能的大幅度提升。MAttNet 已成為指代描述理解中最重要的基線和主干模型之一。特別是對于UNC+數(shù)據(jù)集,由于該數(shù)據(jù)集禁止使用空間位置關(guān)系而只能通過目標(biāo)的外觀屬性來描述,與MAttNet 中的三種模塊劃分契合,從而獲得更多的性能提升。但是由于這類模塊化方法過分簡化了語言結(jié)構(gòu),導(dǎo)致其難以應(yīng)對較長較復(fù)雜的指代描述。

      隨著注意力機制在各種視覺、文本以及多模態(tài)任務(wù)上的有效性得到不斷驗證,之后的一些聯(lián)合嵌入方法考慮采用注意力機制。CMSA 方法通過跨模態(tài)自注意力網(wǎng)絡(luò)有效處理文本與視覺特征間的依賴關(guān)系,以其簡單的結(jié)構(gòu)在四個數(shù)據(jù)集上顯示出出色的分割性能。BCAM 方法通過雙向關(guān)系推理網(wǎng)絡(luò)準(zhǔn)確處理視覺區(qū)域和描述單詞間更復(fù)雜和非順序的依賴關(guān)系,進(jìn)一步提升了該任務(wù)的分割精度。此外,這兩種方法的可視化結(jié)果也為理解注意過程提供了有價值的解釋。

      為了進(jìn)一步揭示視覺特征與文本單詞間的復(fù)雜關(guān)系和可解釋推理過程,基于圖的方法也在近兩年被提出。CMPC 和LSCM 在四個數(shù)據(jù)集上均取得了相近的最優(yōu)越的分割結(jié)果。由于LSCM 方法中采用文本外部解析器來分析指代描述中結(jié)構(gòu),一方面增加了方法的實現(xiàn)難度,但是另一方面也為處理更加復(fù)雜、實際的指代描述提供了更多的可能。

      在基于多尺度信息融合的方法方面,早期的RRN 通過RNN 結(jié)構(gòu)逐步加入底層視覺信息細(xì)化分割結(jié)果,與同時期的CNN-LSTM 框架相比獲得了非常突出地性能增長。DCLN 在RRN 的基礎(chǔ)上進(jìn)一步加入注意力機制優(yōu)化分割模型,并在UNC+和Google-Ref 數(shù)據(jù)集上顯示出更多的提升。這同樣驗證了注意力機制更適合處理較長較難的文本描述。之后的方法大多采用改進(jìn)的RRN 網(wǎng)絡(luò)作為多模態(tài)特征解碼器進(jìn)行最終分割結(jié)果的預(yù)測,本文沒有對這些解碼器進(jìn)行單獨介紹和評測。這些實驗結(jié)果表明,采用模塊化以及圖結(jié)構(gòu)的方法能夠更好地處理文本輸入,并于視覺信息建立關(guān)系,更適合圖像指代分割這種多模態(tài)信息交互的任務(wù),同時為利用邏輯鏈進(jìn)行可解釋的推理建立基礎(chǔ)。

      5 討論

      由于計算機視覺與自然語言處理中基本任務(wù)的技術(shù)逐漸成熟,圖像指代分割任務(wù)引起了人們的極大興趣。雖然現(xiàn)有工作取得了不錯的成果和進(jìn)展,但是圖像指代分割的挑戰(zhàn)仍然存在。本節(jié)將討論現(xiàn)有指代分割技術(shù)的局限性和未來的發(fā)展方向。

      首先,現(xiàn)有的圖像指代分割方法依然缺乏可解釋性。本文中總結(jié)的大多數(shù)方法都是基于現(xiàn)有的圖像語義分割網(wǎng)絡(luò),將整個指代分割過程分為多模態(tài)信息編碼與特征解碼分割的過程,并且都采用端到端的整體網(wǎng)絡(luò)與訓(xùn)練方式,在沒有中間輸出的情況下直接根據(jù)輸入的圖像與指代描述輸出預(yù)測結(jié)果,缺乏中間的推理過程。在這個過程中,最重要的多模態(tài)信息交互過程大多通過聯(lián)合嵌入等模型隱式地融合,因此匹配文本與相關(guān)圖像區(qū)域的過程無法可視化并且缺乏可解釋性,更像是黑盒。雖然現(xiàn)有的模塊化方法和基于圖結(jié)構(gòu)的方法一定程度上實現(xiàn)了目標(biāo)區(qū)域推理的可解釋性,但是依然與人類的推理過程存在差距。針對這個問題,未來可以通過將文本模型的預(yù)訓(xùn)練與可解釋性結(jié)合起來,更好地利用文本結(jié)構(gòu)與邏輯推理來解決更復(fù)雜多變的實際問題。因此,如何增強指代分割模型的可解釋性與可視化推理步驟依然是本任務(wù)的重要挑戰(zhàn)和研究方向。

      其次,當(dāng)前的指代分割模型存在嚴(yán)重的數(shù)據(jù)集偏差問題。具體來說,由于該任務(wù)在數(shù)據(jù)集構(gòu)建時大多基于現(xiàn)有的語義分割數(shù)據(jù)集,其中的目標(biāo)區(qū)域大多為圖像中的前景區(qū)域,導(dǎo)致前景類別與背景類別的樣本不平衡。另一方面,指代描述大多通過雙人游戲收集,在數(shù)據(jù)選擇與標(biāo)注過程中,許多指代描述直接使用目標(biāo)類別或簡單屬性描述,而缺乏物體全面的信息與空間位置關(guān)系。這種不平衡導(dǎo)致指代分割模型只能學(xué)習(xí)到淺層的相關(guān)性,甚至忽略指代描述僅通過圖像本身隨機猜測前景區(qū)域,無法實現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合理解,難以處理實際應(yīng)用中更復(fù)雜的情況。因此,構(gòu)建更平衡的指代分割專用數(shù)據(jù)集是下一步研究的基礎(chǔ)。

      另一方面,由于圖像指代分割同時需要人工的像素級標(biāo)注與指代描述編寫,因此構(gòu)建大規(guī)模數(shù)據(jù)集需要消耗大量的人力物力。因此,基于弱監(jiān)督信息的圖像指代分割方法也是未來的研究方向。利用目標(biāo)級或者圖像級標(biāo)注進(jìn)行模型訓(xùn)練,可以大大降低標(biāo)注成本。另一方面,可以通過構(gòu)建虛擬復(fù)雜場景并自動生成指代描述來獲取大量虛擬場景的數(shù)據(jù),并通過遷移學(xué)習(xí)對自然真實數(shù)據(jù)集進(jìn)行補充,為更通用更實用的指代分割方法提供數(shù)據(jù)基礎(chǔ)。

      6 結(jié)論

      本文對圖像指代分割工作進(jìn)行了綜述。根據(jù)對多模態(tài)信息的編碼解碼方式,本文將現(xiàn)有方法分為多模態(tài)信息融合和多尺度信息融合兩類。之后本文詳細(xì)介紹了這兩類中的主要模型,包括更復(fù)雜的模塊化和基于圖結(jié)構(gòu)的模型,并在常用的公開數(shù)據(jù)集上對這些方法進(jìn)行了評估。最后,本文還指出了當(dāng)前圖像指代分割工作的局限以及未來研究的一些方向。

      猜你喜歡
      指代模態(tài)文本
      Let’s Save Food To Fight Hunger
      奧卡姆和布列丹對指代劃分的比較
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      國內(nèi)多模態(tài)教學(xué)研究回顧與展望
      “不一而足”話討論
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
      由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
      計算物理(2014年2期)2014-03-11 17:01:39
      如何快速走進(jìn)文本
      語文知識(2014年1期)2014-02-28 21:59:13
      喀什市| 万盛区| 延安市| 南溪县| 永安市| 武威市| 江山市| 疏勒县| 会昌县| 府谷县| 罗平县| 长沙县| 合阳县| 金溪县| 印江| 区。| 溧阳市| 沿河| 汝南县| 平遥县| 苗栗县| 民乐县| 湖州市| 海林市| 晋中市| 阿拉善左旗| 旬邑县| 博乐市| 兴义市| 新兴县| 沂源县| 江阴市| 永胜县| 漠河县| 界首市| 绿春县| 肇庆市| 万安县| 常山县| 旬阳县| 安顺市|