田 旭, 彭 飛, 劉 飛, 陳慶文, 閆馨宇
(1.國網(wǎng)青海省電力公司經(jīng)濟技術(shù)研究院,青海 西寧 810000; 2.中國電建集團西北勘測設計研究院有限公司,陜西 西安 710065; 3.天津大學 智能與計算學部,天津 300350; 4.天津大學 天津機器學習重點實驗室,天津 300350)
圖像顯著性檢測旨在找出圖像中最吸引人視覺注意的區(qū)域,因其反映了人視覺機制最本質(zhì)的機理而成為各種計算機視覺任務中重要的預處理步驟,比如圖像識別[1]、視覺跟蹤[2-3]、對象檢測[4]等。
近年來,解決顯著性對象檢測的方法已出現(xiàn)很多。早期的顯著性對象模型多數(shù)是基于非深度學習的傳統(tǒng)算法,顯著映射的生成都基于淺層的、人工設置的先驗特征,這導致算法的魯棒性及泛化能力不強,并且人工提取特征也非常耗時。隨著大數(shù)據(jù)時代的到來,越來越多的學者開始研究基于深度學習的顯著性檢測方法。當前,應用最廣且最有效的方法是全卷積神經(jīng)網(wǎng)絡(fully con-volutional networks, FCNs)[5],它通過卷積-反卷積結(jié)構(gòu)能夠端到端地生成與輸入大小相同的顯著映射。然而,在全卷積神經(jīng)網(wǎng)絡中,大多是通過依次堆疊多個卷積層和池化層來逐步擴大感受野并提取高級語義特征,這會導致特征映射的分辨率不斷減小,對于顯著性對象檢測這種像素級的任務是非常不友好的。此外,利用深層卷積提取的高級特征去預測顯著映射,會由于缺乏淺層的空間細節(jié)信息,使得檢測到的顯著性對象的邊緣十分模糊。
本文針對以上兩大問題,提出了一種全新的顯著性對象檢測方法:基于注意力嵌入的金字塔特征以及漸進邊緣優(yōu)化的顯著性對象檢測模型。首先,受到DenseASPP[6]的啟發(fā),設計了一個由多個擴張卷積構(gòu)成的注意力嵌入的密集空洞金字塔模塊(attention embedded dense atrous pyramid module, AEDAPM),通過具有不同擴張率的擴張卷積處理,在不減小特征映射分辨率的前提下,獲得具有不同感受野的多級多尺度上下文特征,同時嵌入注意力機制,對這些不同感受野下得到的特征產(chǎn)生不同程度的響應,以此來靈活檢測圖像中大小、形狀不一的顯著對象。其次,為了得到清晰的顯著性對象的邊緣,提出了一個漸進邊緣優(yōu)化模塊(stepped edge optimization module, SEOM)。僅僅用高級語義特征去檢測顯著性對象,是無法得到清晰的邊界輪廓的,由于淺層特征中保留了更多的空間細節(jié),適合于定位邊界,所以借助漸進邊緣優(yōu)化模塊,向不同分辨率的顯著特征中逐次補充淺層的外觀特征,以此得到更加清晰的邊緣輪廓。
顯著性對象檢測的研究已有深遠的歷史,早期的方法大多靠自底向上的計算模型以及人工設置的較為低級的特征去檢測顯著性對象,這些特征大多借助于經(jīng)驗,如對比度、中心先驗等。這些方法中最經(jīng)典的要數(shù)Itti等[7]提出的模型,其受靈長類動物視覺神經(jīng)系統(tǒng)及其行為的啟發(fā),對多個特征通道和尺度進行分解,再通過濾波得到多個顯著特征,最后將其融合得到最終的顯著圖。Hou等[8]認為圖像的信息都包含在圖像的幅度譜信息中,利用譜殘差模型來檢測顯著性。后來,F(xiàn)T模型由Achanta等[9]提出,利用顏色以及亮度特征的中心周圍算子來得到顯著映射。Xie等[10]通過利用中低層次線索,在貝葉斯框架內(nèi)提出了一種自下而上顯著性的新模型。更多的總結(jié)可以參考Fan等[11]的研究。
在最近幾年中,深度學習已經(jīng)在顯著性對象檢測領域被廣泛應用。Wang等[12]通過訓練2個深度神經(jīng)網(wǎng)絡,將超像素的局部估計和全局建議相結(jié)合檢測顯著性。受到全卷積神經(jīng)網(wǎng)絡(fully convolutional networks, FCNs)成功的啟發(fā)[5],很多研究開始在全卷積神經(jīng)網(wǎng)絡的基礎上展開。Zhang等[13]提出一種新穎的全卷積神經(jīng)網(wǎng)絡模型,在解碼部分設計了混合上采樣方法,在一定程度上解決了反卷積“棋盤效應”的問題。Li等[14]提出了基于FCN的多任務模型,通過顯著性對象檢測和圖像分割這2個相關任務的協(xié)作學習,對有效信息進行編碼。Hu等[15]將深度神經(jīng)網(wǎng)絡和水平集的方法巧妙結(jié)合,使顯著性對象邊界模糊的問題得到了改善。
然而本文認為,在自然圖像中,對象的大小不同,形狀萬千,在這種情況下,多尺度特征的提取尤為重要,并且,在擴大感受野的同時,還要兼顧特征的分辨率以及空間細節(jié)特征的保留,如何得到豐富而不冗余的多尺度特征,并保留顯著性對象的邊緣輪廓特征,從而得到完整、邊緣輪廓清晰的顯著性對象,仍是一個值得繼續(xù)研究的問題。因此,本文提出了基于金字塔特征與邊緣優(yōu)化的顯著性對象檢測模型,采用注意力嵌入的密集空洞金字塔模塊(AEDAPM)并結(jié)合漸進邊緣優(yōu)化模塊(SEOM),共同檢測自然圖像中的顯著對象。
本文提出了一個基于注意力嵌入的金字塔特征以及漸進邊緣優(yōu)化的顯著性對象檢測網(wǎng)絡(attention embedded pyramid feature and stepped edge optimized based salient object detection network, ASNet)模型。圖1展示了它的總體架構(gòu)。模型是以VGG-16為骨干特征提取器的全卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)。首先,將圖像輸入到VGG-16的前4個卷積塊中,逐層提取圖像特征。通常淺層卷積塊會提取低級的空間結(jié)構(gòu)特征,深層的卷積結(jié)構(gòu)會提取高級語義特征。接著,將從VGG-16中提取到的特征輸入到由擴張卷積構(gòu)成的注意力嵌入的密集空洞金字塔模塊(AEDAPM),該模塊中,利用一系列帶“孔”的卷積去處理特征映射,從而在不減小特征分辨率的前提下,得到豐富的多尺度特征。同時,該模塊還嵌入了通道注意力機制,對不同通道的特征進行過濾,從而讓多尺度特征更加合理有效。然后,從AEDAPM中得到的多尺度特征會傳入解碼模塊中逐步恢復分辨率,在此過程中,網(wǎng)絡模型會將從VGG-16中得到的空間結(jié)構(gòu)特征相繼傳入本文設計的漸進邊緣優(yōu)化模塊(SEOM),逐步清晰顯示對象的邊緣輪廓。
圖1 ASNet總體架構(gòu)Figure 1 ASNet overall architecture
在自然圖像中,往往包括多個大小不同、形狀多變的對象,這就要求深度神經(jīng)網(wǎng)絡可以捕獲豐富的多尺度上下文特征。然而,大多數(shù)已存在的方法通常直接使用堆疊的卷積層和池化層來解決這一問題,但這樣做不僅會丟失空間細節(jié)信息,而且無法有效應對復雜多變的情況。對此,Yang等[6]提出了用一系列擴張卷積構(gòu)成DenseASPP模塊去提取多尺度上下文特征。受此啟發(fā),本文設計了一個有注意力嵌入的密集空洞金字塔模塊(AEDAPM),在不改變特征分辨率的前提下,多樣化擴大感受野,同時嵌入注意力機制,對這些不同感受野下得到的特征產(chǎn)生不同程度的響應,而不是簡單地將其均等對待。
具體來說,AEDAPM的網(wǎng)絡結(jié)構(gòu)如圖2所示。首先,將來自于骨干特征提取網(wǎng)絡的各個卷積塊中池化層輸出的特征定義為{E1,E2,E3,E4},將E4作為該模塊的輸入,為了使最終提取的高級特征能夠適應對象大小、形狀的多變性,應用了多個具有不同擴張率(r=3,6,12,18,24)的空洞卷積塊來處理輸入的特征,每個卷積塊都包含一個輸出通道為64、擴張率為r且卷積核大小為3×3的空洞卷積層,用于防止過擬合的BN層以及為了提高模型的表達能力的ReLU激活層??斩淳矸e是指在一般的卷積核中加入不同大小的“孔”,從而讓該卷積的感受野增大,并且不會減小特征的分辨率。然而,空洞卷積也存在天然的缺陷,即“棋盤效應”,對此,通過密集連接的方式將較淺的擴張卷積層的輸出與其輸入相連接,并繼續(xù)輸送到更深的擴張卷積層中,如式(1)所示:
圖2 注意力嵌入的密集空洞金字塔模塊Figure 2 Attention embedded dense atrous pyramid module
yl=Conv1([yl-1,yl-2,…,y0])。
(1)
式中:yl為擴張率為l的空洞卷積塊的輸入;Conv1代表包含輸出通道為256且卷積核大小為1×1的卷積層、BN層、以及ReLU激活層的卷積塊;[yl-1,yl-2,…,y0]表示將之前各層的輸出串聯(lián)起來形成特征,其目的是為了讓不同感受野下得到的特征更好地融合,進而輸入到下一個空洞卷積塊中。
密集的結(jié)構(gòu)讓不同擴張率的擴張卷積之間可以相互依賴,構(gòu)成密集特征金字塔,緩解“棋盤效應”,同時也可以獲得更大的感受野。如式(2)所示,注意力嵌入的密集空洞金字塔模塊最大的感受野為128。
Rmax=R3,3+R3,6+R3,12+R3,18+R3,24=128。
(2)
式中:RK,d表示卷積核大小為K,擴張率為d的擴張卷積的感受野。
在原始的DenseASPP中,當特征通過最后一個空洞卷積塊后,會將每一個空洞卷積塊以及該模塊所輸入的初始特征相串聯(lián),作為DenseASPP模塊最終輸出的多尺度的上下文特征。然而,由于不同通道的特征映射了不同的語義,如果將它們不加以區(qū)別地集成為多尺度特征,會導致信息冗余。所以本文與DenseASPP有所區(qū)別的是嵌入了通道注意力機制,對不同通道的特征進行過濾,向?qū)︼@著對象有較高響應的通道分配較高的權(quán)值,同時向表示非顯著區(qū)域特征的通道分配較低的權(quán)值,削弱非顯著的背景信息,產(chǎn)生更加合理的多尺度特征。
將原始DenseASPP的輸出f∈RW×H×C展開為f=[f1,f2,…,fC],其中fi∈RW×H是f的第i個切片,C是f的總通道數(shù)。首先,對每個fi進行平均池化從而獲得通道級特征向量v∈RC,之后,利用全連接層去捕獲通道間的相關性,接著,通過sigmoid激活函數(shù)將特征映射到[0,1],從而獲得每個通道的注意力權(quán)值A。具體過程為
(3)
式中:A為每個通道的注意力權(quán)值;v表示通道級特征向量;W為該通道注意力機制中的參數(shù);σ為sigmoid激活函數(shù);δ為ReLU激活函數(shù);μ為全連接層;W1為全連接層中的參數(shù)。
(4)
圖3展示了該模塊前后的特征可視化結(jié)果。在該模塊之前,網(wǎng)絡提取到的特征比較雜亂,不能區(qū)分明顯的顯著對象,在該模塊之后,由于密集空洞卷積對感受野的多樣化擴大,以及注意力機制對特征的有效選擇,使網(wǎng)絡提取的特征對顯著區(qū)域具有了高響應性,從而準確地獲得了多個大小不同、位置不一的顯著性對象。
圖3 注意力嵌入的密集空洞金字塔模塊前后的特征可視化Figure 3 Visualization of feature maps around attention embedded dense atrous pyramid module
顯著性對象的邊緣模糊一直是該領域的熱點問題。本文認為,深層特征中往往包含更多的語義特征,而淺層特征中包含更多的空間結(jié)構(gòu)特征,僅僅用高級語義特征去檢測顯著性對象無法得到清晰的邊界輪廓。由于淺層的特征中保留了更多的空間細節(jié),適合于定位邊界,所以借助漸進邊緣優(yōu)化模塊,向最終進行顯著性檢測的特征中依次補充從骨干特征提取網(wǎng)絡中提取的各級淺層特征,以此來得到更加清晰的邊緣輪廓。
圖4 漸進邊緣優(yōu)化模塊Figure 4 Stepped edge optimization module
Si-1=Hi-1(Concat(UpSampling(Si,Ci))。
(5)
式中:Hi-1為第(i-1)個卷積塊;Concat為連接層;UpSampling為上采樣層;Si為第i個顯著特征;Ci為第i個來自于骨干特征提取網(wǎng)絡的特征。即每一次將特征上采樣后,都將其與來自底層網(wǎng)絡的相同分辨率的特征相串聯(lián),以補充相應的空間信息,并經(jīng)過卷積層進行充分融合。
為了使每一次邊緣優(yōu)化都能夠從底層網(wǎng)絡中獲取對顯著性檢測有用的特征,而不是引入噪聲,因此在每一個Si之后,都設置了一個輸出通道為1、卷積核大小為3×3的卷積層,并將得到的顯著映射{saliency_4,saliency_3,saliency_2,saliency_1}作為輸出,將原始的標注結(jié)果分別調(diào)整到與各個顯著映射大小相同的分辨率(256×256、128×128、64×64、32×32),并計算其損失,監(jiān)督每一個邊緣優(yōu)化塊從底層網(wǎng)絡中提取出有效的空間細節(jié)信息,從而使得顯著映射中顯著性對象的邊緣逐步清晰。
圖5展示了漸進邊緣優(yōu)化模塊中每一次優(yōu)化后所得的顯著映射的邊緣輪廓,可以看出,得益于各級底層網(wǎng)絡特征的補充,顯著性對象的邊緣輪廓也逐漸清晰,一步步接近真值圖的邊緣輪廓。該模塊對網(wǎng)絡性能指標的提升將在3.3節(jié)中詳細介紹。
圖5 漸進邊緣優(yōu)化模塊中每一次優(yōu)化所得到的邊緣輪廓可視化Figure 5 Visualization of edges obtained with every optimization in stepped edge optimization module
2.4.1 損失函數(shù)
受Wang等[16]的啟發(fā),考慮多種評價指標,利用融合的損失函數(shù)進行顯著性預測,如式(6)所示:
Loss=LC+LM。
(6)
式中:LC表示交叉熵損失函數(shù);LM表示平均絕對誤差損失函數(shù)。
LC的定義如下:
(7)
LM的定義如下:
(8)
式中:lx,y∈{0,1}表示像素(x,y)的標簽;Px,y表示像素(x,y)的預測值。
2.4.2 訓練數(shù)據(jù)集
使用DUTS-train數(shù)據(jù)集[17]來訓練網(wǎng)絡,它包含10 553張圖像。
為了使模型擁有足夠強的泛化能力,在訓練時使用了數(shù)據(jù)增強技術(shù)。具體來說,使用了隨機角度變換、水平或垂直方向上平移、隨機錯切變換角度、圖像水平翻轉(zhuǎn),從而使圖像增強至65 k。
2.4.3 其他細節(jié)
本文模型使用Keras框架來實現(xiàn)。主干特征提取網(wǎng)絡的參數(shù)由在ImageNet上預訓練的VGG-16進行初始化,對于其他卷積層,采用截斷法初始化它們的參數(shù)。訓練時,所有的圖像和真值圖的分辨率都被調(diào)整為256×256。模型的初始學習率被設置為10-4,使用Adam算法在NVIDIA GTX 1 080 Ti GPU顯卡上進行訓練,直至模型參數(shù)收斂。
在顯著性領域中常用的5個公開數(shù)據(jù)集上對本文的網(wǎng)絡模型進行性能評價,5個數(shù)據(jù)集為DUTS-TE[17]、HKU-IS[18]、DUT-OMRON[19]、PASCAL-S[20]和ECSSD[21]。
與其他最新的顯著性對象檢測方法相同,本文選用了3種流行的的評價指標對性能進行評估:精確率-召回率曲線、F值以及平均絕對誤差MAE。
將本文的方法與其他12種經(jīng)典、主流的顯著性對象檢測方法在5個公開數(shù)據(jù)集上進行了比較,對象檢測方法分別是:AMU[22]、DCL[23]、DLS[15]、DS[14]、ELD[24]、KSR[25]、LEGS[12]、MCDL[26]、MDF[18]、UCF[13]、CapSal[27]、CAN[28]。
3.2.1 定量評價
表1和圖6展示了本文方法與其他方法在5個數(shù)據(jù)集上定量比較的結(jié)果。表1顯示了不同方法在不同數(shù)據(jù)集上所測得的F值、平均絕對誤差MAE、模型參數(shù)量和檢測時間,圖6則展示了對應的精確率-召回率曲線??傮w而言,本文方法使用所有的評價指標在5個數(shù)據(jù)集中都取得了很好的結(jié)果。
圖6 5個數(shù)據(jù)集上的精確率-召回率曲線Figure 6 Precision-recall curves on five datasets
表1 不同顯著性檢測方法在5個公開數(shù)據(jù)集上的F值和MAE、參數(shù)量以及檢測時間的對比結(jié)果Table 1 The maximum F, MAE, parameter quantity and detection speed of different saliency detection methods on five released saliency detection datasets
3.2.2 定性評價
圖7顯示了本文模型與其他顯著性對象檢測模型所生成的顯著映射的對比結(jié)果??梢钥闯?,本文方法相比于其他方法來說,無論是單一物體的簡單場景(圖7第4、5行)、存在多個大小不同的對象的場景(圖7第3、7行)、存在多個斷開連接的物體的情況(圖7第1、2、6行)、對象與背景的色彩對比度差異較低的情況(圖7第8行),不僅可以準確地檢測出其中所有的顯著對象,并且可以獲得更加清晰的邊緣輪廓。這得益于本文提出的AEDAPM和SEOM網(wǎng)絡結(jié)構(gòu),使網(wǎng)絡具有更好的特征提取能力和邊緣檢測能力,從而讓顯著映射具有更完整的顯著區(qū)域和更清晰的邊緣輪廓。
圖7 不同方法的實驗結(jié)果對比Figure 7 Qualitative comparisons of different SOD methods
本文提出的網(wǎng)絡模型主要由2個模塊組成:注意力嵌入的密集空洞金字塔模塊(AEDAPM)和漸進邊緣優(yōu)化模塊(SEOM)。為了檢測2個模塊的有效性,進行了以下的消融實驗。如表2所示,當模型包含所有模塊時,能夠取得最好的性能表現(xiàn),當分別去掉了AEDAPM和SEOM時,精度都會有一定程度的下降,這說明所有組件對于該方法獲得最佳的結(jié)果而言都是必要的。
表2 AEDAPM和SEOM的消融實驗Table 2 Ablation study for AEDAPM and SEOM
首先使用基本的全卷積網(wǎng)絡作為基本模型。其次,將AEDAPM單獨添加到網(wǎng)絡中(對比第1行和第2行),F(xiàn)值以及MAE分別優(yōu)化了10.79%和23.78%,這說明了本文提出的AEDAPM能夠獲得更加豐富的多尺度特征,從而提高模型的表征能力。此外,將SEOM單獨添加到基本的全卷積網(wǎng)絡中(對比第1行和第5行),F(xiàn)值以及MAE分別優(yōu)化了8.2%和11.89%,這表明SEOM能夠讓網(wǎng)絡補充淺層的空間細節(jié)信息,同時避免冗雜背景信息的干擾。
此外,對AEDAPM中空洞卷積和注意力機制的影響作出了進一步的對比和分析。由表2的第3、4行所示,空洞卷積比注意力機制對網(wǎng)絡的影響更大,這說明空洞卷積對于網(wǎng)絡感受野的豐富要比注意力機制對特征產(chǎn)生不同程度的響應更加重要。
本文提出了一個新穎的基于金字塔特征與邊緣優(yōu)化的顯著性對象檢測模型,采用由擴張卷積構(gòu)成的注意力嵌入的密集空洞金字塔模塊(AEDAPM)獲取不同感受野下不同尺度的上下文信息,以此檢測不同大小、形狀的顯著性對象,同時設計了漸進邊緣優(yōu)化模塊(SEOM),用于補充更加豐富而不冗余的空間細節(jié)特征,使顯著性對象的邊緣輪廓更加清晰。本文提出的方法在多個公開的顯著性對象檢測數(shù)據(jù)集上與其他主流方法相比,都能得到更加準確、對象邊緣更加清晰的結(jié)果。