李 穎,宋 甜,王 靜
(四川大學(xué)電子信息學(xué)院,成都 610065)
顯著性目標(biāo)檢測(SOD)能夠模擬人類選擇性的分辨出視覺中最重要目標(biāo)的機制,識別并提取出圖像中最顯著的目標(biāo)。它是由各種領(lǐng)域中廣泛的對象級應(yīng)用驅(qū)動的,比如視覺跟蹤、圖像理解、圖像字幕等。
SOD歷史相對較短,主要分為非深度學(xué)習(xí)和深度學(xué)習(xí)模型。早期的非深度學(xué)習(xí)SOD模型大多基于低級的手工特征,且依賴于圖片特性(顏色對比、背景先驗等)啟發(fā),無法實現(xiàn)端到端的訓(xùn)練。隨著深度學(xué)習(xí)的蓬勃發(fā)展,SOD逐漸從傳統(tǒng)方法發(fā)展到深度學(xué)習(xí)方法,性能得到極大提升。最早的深度SOD模型對圖像的每個處理單元提取深度特征,然后訓(xùn)練多層感知機(MLP)分類器進行顯著性評分預(yù)測,這種方法不能很好地捕獲關(guān)鍵的空間信息。隨著全卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,Liu等利用CNN可以提取包含低級局部細節(jié)和高級全局語義的多層次特征的特性,開發(fā)了基于VGG網(wǎng)絡(luò)的深度SOD模型,該模型通過使用循環(huán)層逐步組合較淺的特征來細化粗糙的顯著性地圖。Zhang等利用編碼器-解碼器體系結(jié)構(gòu)來設(shè)計網(wǎng)絡(luò),通過學(xué)習(xí)解碼器的不確定性,產(chǎn)生分辨率更高的預(yù)測。總結(jié)起來,這些模型主要分為單流網(wǎng)絡(luò)模型、多流網(wǎng)絡(luò)模型、U型側(cè)融合網(wǎng)絡(luò)模型等。
Lin等開發(fā)的U型網(wǎng)絡(luò)因為能利用多層特征進行側(cè)融合,恢復(fù)圖片的語義信息被廣泛關(guān)注。因此,目前主流的顯著性目標(biāo)檢測方法大部分采用U型的編解碼網(wǎng)絡(luò)結(jié)構(gòu)。許多方法直接將編碼器和解碼器通過簡單的相加或相乘的操作進行級聯(lián),提取的特征尺度單一,這忽略了不同層級和尺度特征對最終預(yù)測圖的影響,導(dǎo)致最終的預(yù)測圖缺失上下文語義信息。一些方法為了提取深層特征增加了U型網(wǎng)絡(luò)的深度,雖然可以提取深層特征,但隨著特征金字塔深度的增加局部信息也會嚴(yán)重?fù)p失。此外,由于接受域的限制,單尺度卷積核難以捕獲大小變化的對象的上下文信息。為了解決這個問題,Chen等在其網(wǎng)絡(luò)中直接配置了一個巨大的空間金字塔池模塊(ASPP)。然而,當(dāng)使用一個膨脹率較大的卷積時,由于內(nèi)核下的信息嚴(yán)重缺乏相關(guān)性,這可能不利于細微圖像結(jié)構(gòu)的辨別。
基于以上的問題,為了充分利用語義和細節(jié)信息,本文設(shè)計了一種簡單而有效的多尺度特征解碼網(wǎng)絡(luò),通過在編碼和解碼模塊之間增加精煉過渡層和注意力機制,給各層次特征的通道和空間信息分配不同權(quán)重,以恢復(fù)圖片的細節(jié),增強顯著性信息。此外,在網(wǎng)絡(luò)的頂部增加感受野增強模塊,通過空洞卷積擴大感受野、殘差連接保留原始信息,可以定位深層特征中不同尺度信息,獲取更精確的顯著性目標(biāo)。最后將不同層的多尺度信息進行聚合,提取出最終的顯著圖。在主流的6個顯著性目標(biāo)檢測數(shù)據(jù)集上對比,表明本文的方法優(yōu)于同類方法。
整個網(wǎng)絡(luò)包含編碼和解碼兩個部分,具體如下:
(1)編碼網(wǎng)絡(luò)。VGG-16預(yù)訓(xùn)練骨干網(wǎng)絡(luò),包含13個卷積層、5個最大池化層、2個全連接層。與其他顯著性目標(biāo)檢測類似,為了保留最后一層卷積層的細節(jié)信息,本文丟棄了所有全連接層和最后一層池化層,使其成為全卷積神經(jīng)網(wǎng)絡(luò)。
(2)解碼網(wǎng)絡(luò)。包含四部分:①精煉過渡層(Refining Transition Layer):將編碼器輸出的多尺度特征~減少通道數(shù)以實現(xiàn)精煉化。②雙注意力模塊(Dual Attention Module)。從通道和空間上對精煉過渡層輸出的特征~賦予不同權(quán)重,篩選出有用的語義信息。③感受野增強模塊(Receptive Field Enhancement Mod?ule)。擴大感受野,從深層特征定位多尺度信息。④特征融合流(Feature Aggregation Stream)。將不同尺度的解碼信息進行融合,生成顯著圖(prediction)。
現(xiàn)有的一些RGB顯著性目標(biāo)檢測在編碼和解碼模塊之間直接通過相加或相乘連接,沒有充分利用圖片語義和細節(jié)信息。一些方法在U型網(wǎng)絡(luò)的特征融合過程中設(shè)計復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)將信息從高層次流向低層次以補充細節(jié),這雖然可以引入有價值的人類先驗信息,但會導(dǎo)致訓(xùn)練過程變復(fù)雜,網(wǎng)絡(luò)結(jié)構(gòu)缺乏通用性。
為了充分利用語義和細節(jié)信息,本文設(shè)計了一種多尺度特征解碼模塊,首先用精煉過渡層的3×3卷積降低編碼器輸出特征~的維度,以實現(xiàn)特征的精煉化打磨;然后在多尺度特征的輸出引入雙注意力模塊,在通道和空間上還原編碼器的細節(jié)信息;最后使用特征融合流將多尺度特征融合。
(1)雙注意力模塊(DAM)。由于特征經(jīng)過編碼器和精煉過渡層后會損失細節(jié)信息,直接對特征進行融合效果不佳,為了提高網(wǎng)絡(luò)對特征圖中空間和通道上信息的利用能力,使解碼器更加關(guān)注顯著性區(qū)域,受[11]啟發(fā),引入了一種簡單而有效的雙注意力模塊,此模塊在本文提出的多尺度特征解碼網(wǎng)絡(luò)中起到核心作用,可以與任何深度卷積主干結(jié)合來優(yōu)化網(wǎng)絡(luò)特征。如圖2所示。
圖1 多尺度特征解碼網(wǎng)絡(luò)
圖2 雙注意力模塊
雙注意力模塊包含了一個連續(xù)的通道注意力操作和一個空間注意力操作,定義的公式為:
其中f 表示第(=1,2,3,4,5)分支的特征,表示通道注意力操作,表示空間注意力操作。通道注意力操作先用全局最大池化聚合特征圖的空間信息,然后將此特征送入感知機以產(chǎn)生特征;空間注意力操作是將輸入的特征在通道軸上全局最大池化,然后經(jīng)過7×7卷積。兩個操作最后一步都是將處理后特征經(jīng)過Sigmoid函數(shù)后與原始輸入特征相乘,公式詳解為:
其中,表示兩層感知機,是對每個特征圖全局最大池化的操作,?表示有維度擴展的相乘操作,是卷積操作,是對特征圖上沿著通道軸每個點的全局最大池化操作,表示Sigmoid操作。
(2)特征融合流(FAS)。對多尺度特征進行融合,生成最終的顯著圖。具體操作是采用膨脹率為1的3×3卷積塊對輸入特征通道進行降維,可以提取出特征中有效信息,然后將經(jīng)過上采樣操作后的高層次特征與低層次特征逐級融合。定義如下:
其中D是輸出的解碼模塊,是特征融合流,是基于雙線性插值的上采樣操作。
在顯著性目標(biāo)檢測中,由于不同層次特征對最終預(yù)測效果的影響不同,深層特征具有更高層次的語義信息,可以為解碼器貢獻更多的上下文指導(dǎo),為了提升網(wǎng)絡(luò)的魯棒性,可以對深層特征的多尺度信息進行整合。常用的方式有空間金字塔池算法(ASPP)。該方法采用多個平行的空洞卷積層,具有不同的擴張速率,雖然可以不增加網(wǎng)絡(luò)參數(shù)的同時生成高分辨率特征圖,但隨著膨脹率的擴大,連續(xù)空洞卷積時的稀疏性會導(dǎo)致采樣點之間的關(guān)聯(lián)太弱,無法提取穩(wěn)定的特征。Inception網(wǎng)絡(luò)采用不同尺度的卷積核獲取多尺度特征,雖然可以獲得不同感受野,但不同的卷積核的采樣中心位置固定,輸出的特征會更關(guān)注靠近中心部分的信息,這會失去對不同視野的分辨能力,造成最終的顯著圖分割不均勻。
基于以上問題,為了獲取不同視野的多尺度特征。受RFB(Receptive Field Block)啟發(fā),人類視覺系統(tǒng)中不同的感受野應(yīng)該具備不同的離心率,可以將Inception結(jié)構(gòu)與空洞卷積結(jié)合,在擴大感受野的同時模擬人類視覺系統(tǒng),獲取不同離心率的多尺度信息。因此,在RFB基礎(chǔ)上,本文改進了一個多分支結(jié)構(gòu)的感受野增強模塊(RFEM),該模塊包含了兩部分:多尺度特征提取的分支和殘差連接分支,可以在擴大感受野的同時,保留原始特征信息。模塊的結(jié)構(gòu)如圖3所示,對4個分支操作:先用1×1卷積操作對4個分支降維,然后對第(=2,3,4)分支進行1×(2-1)和( )2-1×1的卷積操作(膨脹率為1),接著對第(=2,3,4)分支進行3×3卷積操作(膨脹率為2-1),然后將四個分支的特征進行拼接(concat),對拼接后的特征進行1×1卷積操作降維。整個過程的1×1卷積能減少網(wǎng)絡(luò)參數(shù)量,可以更好的進行跨通道信息融合,不同膨脹率的空洞卷積是為了擴大感受野,獲取多尺度特征,定位全局顯著信息。最后的殘差連接將拼接后的特征與原始特征相加,以修補局部細節(jié)信息。整個模塊的公式定義為:
其中()表示4個支路的卷積操作,細節(jié)如圖3。
圖3 RFEM模塊
本文的訓(xùn)練集為DUTS-TR,測試集使用了六個常用的基準(zhǔn)數(shù)據(jù)集,包括DUT-OMRON(5168),DUTS-TE(5019),HKU-IS(4447),ECSSD(1000),PASCAL-S(850),SOD(300)。這些圖片包含結(jié)構(gòu)復(fù)雜的前景目標(biāo)、多個前景目標(biāo)、大型前景目標(biāo)和低對比度目標(biāo)等具有挑戰(zhàn)性的場景。
為了綜合評估顯著圖的質(zhì)量,采用平均絕對誤差(mean absolute error,MAE),S-measure(structural measure),F(xiàn)-measure來評估預(yù)測圖和Ground Truth標(biāo)注圖的誤差。
(1)MAE。平均絕對誤差,表示預(yù)測顯著性圖和Ground Truth標(biāo)注圖的平均像素差。定義如下:
其中,和分別是顯著圖和對應(yīng)的Ground Truth標(biāo)注圖。(,)和(,)分別是圖像高度、寬度和像素坐標(biāo)。
(2)F-measure。用來綜合評估回歸率和準(zhǔn)確率,定義如下:
其中,和分別是平均準(zhǔn)確率和平均召回率,設(shè)置為0.3。
(3)S-measure。用來評估預(yù)測的顯著圖與Ground Truth標(biāo)注圖的結(jié)構(gòu)相似度。定義如下:
其中,S為區(qū)域感知相似度,S為目標(biāo)感知相似度,設(shè)置為0.5。
本文的模型基于Pytorch框架實現(xiàn),在一臺實驗室配備的GTX 1080 Ti GPU(11 GB內(nèi)存)上進行網(wǎng)絡(luò)的訓(xùn)練和測試。在訓(xùn)練階段,為了避免過擬合,采用了數(shù)據(jù)增強技術(shù),包括對比度、飽和度變化、隨機亮度、隨機水平翻轉(zhuǎn)。采用隨機梯度下降(SGD)優(yōu)化器。沖量值、權(quán)重衰減和學(xué)習(xí)率分別設(shè)置為0.9、0.0005和0.001。訓(xùn)練時批次大小batch-size為4,在經(jīng)過40個ep?och后訓(xùn)練收斂,整個過程大概需要7小時。
本文采用二分類交叉熵?fù)p失函數(shù)(Binary Cross-Entropy Loss)對的顯著圖進行全監(jiān)督訓(xùn)練。定義如下:
其中,和分別是顯著圖和對應(yīng)的Ground Truth標(biāo)注圖。(,)和(,)是圖像高度、寬度和像素坐標(biāo)。P和P是顯著圖和標(biāo)注圖的像素值。
為了證明多尺度特征解碼模塊和感受野增強模塊的有效性,本文在4個主流數(shù)據(jù)集上進行了消融實驗。Baseline為包含VGG-16骨干網(wǎng)絡(luò)、精煉過渡層和特征融合流的基礎(chǔ)網(wǎng)絡(luò)。1號實驗表示對Baseline網(wǎng)絡(luò)進行訓(xùn)練和評估,2號實驗是雙注意力模塊(DAM)加在Baseline上訓(xùn)練評估,3號實驗是將感受野增強模塊(RFEM)加在Baseline上進行評估,4號實驗是將DAM和RFEM都添加在Baseline上訓(xùn)練評估。實驗結(jié)果如表1—表2所示。
表1 DUTS-TE和DUT-OMRON數(shù)據(jù)集的消融實驗
表2 ECSSD和PASCAL-S數(shù)據(jù)集的消融實驗
從表中可以看出,在2號實驗中,四個數(shù)據(jù)集的優(yōu)化了0.005~0.011,max最多提升了4.7%。在3號實驗中,四個數(shù)據(jù)集的優(yōu)化了0.002~0.011,max最多提升了2.6%。在4號實驗中,可以看出網(wǎng)絡(luò)性能進一步提升,值在四個數(shù)據(jù)集上對于Baseline優(yōu)化了0.01~0.013,max值提升了2.8%~6.6%。這證明各模塊的有效性。
將本文方法與其他基于VGG骨干網(wǎng)絡(luò)的方法在測試集上進行比較,結(jié)果如表3和表4所示。從表中可以看到,除了在DUT-OMRON數(shù)據(jù)集的和S值以外,本文方法在其他5個數(shù)據(jù)集上的評估指標(biāo)都顯著優(yōu)于最先進的AF?Net。其中值都優(yōu)化了0.003~0.007;max和S最多提升了2.0%和1.9%。除了SOD數(shù)據(jù)集的和S值,本文方法也顯著優(yōu)于較先進的PiCANet。
表3 本文方法與其他方法在DUTS-TE,DUT-OMRON,HKU-IS對比
表4 本文方法與其他方法在ECSSD,PASCAL-S,SOD對比
本文與其他方法的顯著圖進行了可視化對比,從圖4中可以看出,本文的多尺度特征解碼網(wǎng)絡(luò)可以處理不同類型的目標(biāo),并產(chǎn)生較準(zhǔn)確的結(jié)果。第1行是當(dāng)目標(biāo)前景被雜草和樹枝擋住時,本文的方法能清晰分割出目標(biāo)整體輪廓。第2行是目標(biāo)在圖片的邊界時的場景,可以看到依然能正確分割整個目標(biāo)。第3、4行是針對多個目標(biāo)的場景,可以看到所有顯著性目標(biāo)都被分割,邊緣也比較清晰,而別的方法可能有遺漏甚至識別出其他不相關(guān)物體。第5行是目標(biāo)與背景界限不清時的場景,本文的方法精度雖然不高,但能基本識別出目標(biāo)在水面上的形狀,其他方法要么識別不完整,要么將倒影也識別出來。
圖4 本文與其他方法的可視化對比
本文提出了一種基于VGG-16全卷積神經(jīng)網(wǎng)絡(luò)的多尺度特征解碼顯著性目標(biāo)檢測模型。首先通過使用精煉過渡層和注意力機制對編碼器輸出信息進行精細打磨,增強編碼與解碼網(wǎng)絡(luò)之間的信息交換,然后通過感受野增強模塊,在保留局部采樣點相關(guān)性的同時擴大深層特征的感受野,增強全局語義信息,最后結(jié)合多尺度特征融合流將不同層次特征進行融合輸出結(jié)果。
通過實驗對比分析,分別驗證了多尺度特征解碼模塊和感受野增強模塊的有效性。此外,將本文的方法在主流數(shù)據(jù)集上與其他先進的RGB SOD方法進行了定性和定量的對比,結(jié)果證實本文的方法能生成更精確的顯著圖。