張芳 王萌 肖志濤 吳駿 耿磊 童軍 王雯
隨著信息科技的快速發(fā)展與推廣,圖像數(shù)據(jù)成為人類重要的信息來源之一,人們接收的信息量呈指數(shù)級增長.如何在海量的圖像信息中篩選出人類感興趣的目標(biāo)區(qū)域具有重要研究意義.研究發(fā)現(xiàn),在復(fù)雜場景下,人類視覺處理系統(tǒng)會將視覺注意力集中于該場景的少數(shù)幾個對象,也稱為感興趣區(qū)域.感興趣區(qū)域與人類視覺感知關(guān)系較為密切,具有一定的主觀性.顯著性檢測作為圖像預(yù)處理過程,可以廣泛應(yīng)用到視覺跟蹤[1]、圖像分類[2]、圖像分割[3]和目標(biāo)重定位[4?5]等視覺工作領(lǐng)域.
顯著性檢測方法分為自上而下和自下而上兩種.自上而下的檢測方法[6?8]是任務(wù)驅(qū)動型,需要人工標(biāo)注真值圖進(jìn)行監(jiān)督訓(xùn)練,融入更多的人類感知(例如中心先驗(yàn)信息、色彩先驗(yàn)信息和語義先驗(yàn)信息等)得到顯著圖.而自下而上的方法[9?17]是數(shù)據(jù)驅(qū)動型,更注重利用對比度、位置和紋理等圖像特征得到顯著圖.最早的研究者Itti 等[9]提出一種基于局部對比度的空間域視覺模型,使用由中心向四周變化的圖像差異性得到顯著圖.Hou等[10]提出了基于譜殘差(Spectral residual,SR)的顯著性檢測算法.Achanta 等[11]提出基于圖像頻域計(jì)算顯著度的頻率調(diào)諧(Frequency-tuned,FT)算法.Cheng 等[12]提出了基于直方圖計(jì)算全局對比度的方法.Perazzi 等[13]引進(jìn)了一種將顯著性檢測看作濾波的思想,提出了顯著性過濾器(Saliency filters,SF)方法.Goferman 等[14]提出了基于上下文感知(Context-aware,CA)的顯著性檢測算法.Yang 等[15]先后提出基于圖形正則化(Graphregularized,GR)的顯著性檢測算法和利用顯著性傳播的流行排序(Manifold ranking,MR)算法[16].Qin 等[17]提出基于背景先驗(yàn)和單層元胞自動機(jī)(Background-based method via single-layer cellular automata,BSCA)的顯著性檢測算法.此外,低秩矩陣恢復(fù)作為高維數(shù)據(jù)分析及處理的工具應(yīng)用到顯著性檢測中[18?20].Yan 等[18]提出將圖像顯著區(qū)域看作是稀疏噪聲,將背景看作是低秩矩陣,利用稀疏表示和魯棒主成分分析算法計(jì)算圖像的顯著性.該算法首先將圖像分解成8×8 的小塊,對每個圖像塊進(jìn)行稀疏編碼并合并成一個編碼矩陣;然后利用魯棒主成分分析分解編碼矩陣;最后利用分解得到的稀疏矩陣構(gòu)建相應(yīng)圖像塊的顯著性因子.但是,由于大尺寸的顯著目標(biāo)包含很多圖像塊,每個圖像塊中的顯著目標(biāo)不再滿足稀疏特性,因而極大地影響了檢測效果.Lang 等[19]提出多任務(wù)低秩恢復(fù)的顯著性檢測算法,利用多任務(wù)低秩表示算法分解特征矩陣,并約束同一圖像塊中所有特征稀疏成分的一致性,然后采用重構(gòu)誤差構(gòu)建相應(yīng)圖像塊的顯著性.該算法充分利用多特征描述的一致性信息,效果比文獻(xiàn)[18]有所提升,但由于大尺寸的目標(biāo)包含大量的特征描述,此時(shí)特征不再具有稀疏特性,僅利用重構(gòu)誤差不能解決這一問題,故該方法同樣不能完整地檢測出大尺寸的顯著性目標(biāo).為了改善低秩矩陣恢復(fù)的結(jié)果,Shen 等[20]提出一種融合高層次和低層次信息的低秩矩陣恢復(fù)檢測算法(Low rank matrix recovery,LRMR),這是一種自下而上與自上而下結(jié)合的算法.改進(jìn)了文獻(xiàn)[18]中的不足,首先將圖像進(jìn)行超像素分割,并提取超像素的多個特征;然后通過學(xué)習(xí)得到特征變換矩陣和先驗(yàn)知識,包括中心先驗(yàn)、人臉先驗(yàn)和色彩先驗(yàn),再利用學(xué)習(xí)得到的特征變換矩陣和先驗(yàn)知識對特征矩陣進(jìn)行變換;最后利用魯棒主成分分析算法對變換后的矩陣進(jìn)行低秩與稀疏分解.該方法在一定程度上改善了文獻(xiàn)[18?19]的不足,但是由于中心先驗(yàn)存在一定的局限性,而在復(fù)雜場景下色彩先驗(yàn)也會失效,因此該算法對背景較復(fù)雜的圖像檢測效果不理想.
隨著深度學(xué)習(xí)研究的不斷深入,卷積神經(jīng)網(wǎng)絡(luò)逐漸應(yīng)用到顯著性檢測中.李岳云等[21]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測方法,首先利用超像素算法和雙邊濾波分別得到區(qū)域和邊緣信息,再利用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像的區(qū)域和邊緣特征,最后將卷積神經(jīng)網(wǎng)絡(luò)輸出的區(qū)域置信圖和邊緣置信圖融入到條件隨機(jī)場中,達(dá)到判斷顯著性的目的.Wang 等[22]提出了一種基于循環(huán)全卷積神經(jīng)網(wǎng)絡(luò)(Recurrent fully convolutional neural networks,RFCNN)的顯著性檢測方法,主要包括預(yù)訓(xùn)練和微調(diào)兩個步驟,利用RFCN 對原圖和顯著先驗(yàn)圖進(jìn)行訓(xùn)練達(dá)到對顯著先驗(yàn)圖修正的目的,然后利用傳統(tǒng)算法對修正后的顯著圖進(jìn)行進(jìn)一步優(yōu)化處理.Lee 等[23]提出了在一個統(tǒng)一的深度學(xué)習(xí)框架中利用高層次和低層次特征進(jìn)行顯著性檢測的深度顯著(Deep saliency,DS)算法,使用VGG-net 提取高級特征,利用低層次特征與圖像中其他部分進(jìn)行對比得到低層次距離圖,然后使用卷積神經(jīng)網(wǎng)絡(luò)對距離圖進(jìn)行編碼,最后將編碼的低層次距離圖和高級特征連接起來,采用一個全連接的神經(jīng)網(wǎng)絡(luò)分類器對特征進(jìn)行評估,得到顯著圖.以上方法顯示了深度學(xué)習(xí)在顯著性檢測中的優(yōu)良性能.
如前文所述,文獻(xiàn)[20]中的中心先驗(yàn)存在一定的局限性,而在復(fù)雜場景下色彩先驗(yàn)也會失效,二者均為不穩(wěn)定的先驗(yàn)知識.為了提高方法在復(fù)雜場景下進(jìn)行顯著性檢測的性能,本文對文獻(xiàn)[20]進(jìn)行改進(jìn),利用基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional neural networks,FCNN)學(xué)習(xí)得到的高層語義先驗(yàn)知識替換文獻(xiàn)[20]中的中心先驗(yàn)、人臉先驗(yàn)和色彩先驗(yàn)知識,并將其融入到低秩稀疏分解中.FCNN通常用于語義分割[24],即對圖像中的各部分進(jìn)行區(qū)域分割并給出語義類別.本文忽略類別因素,僅利用FCNN 定位前景目標(biāo),由于前景目標(biāo)通常是觀察者感興趣的區(qū)域,因此FCNN 分割出的前景可作為顯著性檢測的語義先驗(yàn)知識.因?yàn)镕CNN 對前景目標(biāo)定位準(zhǔn)確,所以本文方法能夠有效提高顯著性檢測的準(zhǔn)確性.
本文方法的具體步驟是:1)對圖像進(jìn)行Meanshift 超像素聚類,并計(jì)算每個超像素中所有像素的顏色、紋理和邊緣特征均值構(gòu)造特征矩陣;2)為了使圖像背景具有相似性以利于低秩稀疏分解,需要對上述特征矩陣進(jìn)行變換,使其在新的特征空間中背景部分可以被表示為低秩矩陣,本文利用MSRA圖像數(shù)據(jù)庫中的圖像基于梯度下降法學(xué)習(xí)特征變換矩陣[20];3)為了利用高層次信息以提高感興趣區(qū)域的檢測效果,利用全卷積神經(jīng)網(wǎng)絡(luò)對MSRA 數(shù)據(jù)庫標(biāo)記的圖像進(jìn)行學(xué)習(xí),得到高層語義先驗(yàn)知識矩陣;4)利用特征變換矩陣和高層語義先驗(yàn)知識對特征矩陣進(jìn)行變換;5)利用魯棒主成分分析算法對變換后的矩陣進(jìn)行低秩稀疏分解得到顯著圖.總體框架如圖1 所示.
輸入一幅圖像,提取顏色、紋理和邊緣等特征,構(gòu)成維度d53 的特征矩陣.
1)顏色特征.提取圖像的R、G、B 三通道灰度值以及色調(diào)(Hue)和飽和度(Saturation)描述圖像的顏色特征;
2)邊緣特征.采用可控金字塔(Steerable pyramid)濾波器[25]對圖像作多尺度和多方向分解,這里選取3 個尺度、4 個方向的濾波器,得到12 個響應(yīng)作為圖像的邊緣特征;
3)紋理特征.采用Gabor 濾波器[26]提取不同尺度、不同方向上的紋理特征,這里選取3 個尺度、12 個方向,得到36 個響應(yīng)作為圖像的紋理特征.
利用Mean-shift 聚類算法[27]對圖像進(jìn)行超像素聚類,得到N個超像素{pi|i1,2,3,···,N},如圖2(b)所示.這里的N為超像素個數(shù),是Meanshift 方法自動聚類的類別數(shù).計(jì)算每個超像素中所有像素特征的均值表示該超像素的特征值fi,所有超像素特征共同構(gòu)成特征矩陣F[f1,f2,···,fN],Rd×N.
本文采用文獻(xiàn)[18?20]的思想,將圖像顯著區(qū)域看作稀疏噪聲,將背景看作低秩矩陣.在復(fù)雜背景下,超像素聚類結(jié)果后的圖像背景相似度依舊不高,如圖2(b)所示,因此原始圖像空間中的特征并不利于低秩稀疏分解.為了找到一個合適的特征空間能夠?qū)⒋蟛糠值膱D像背景表示為低秩矩陣,本文基于梯度下降法利用MSRA 標(biāo)記的數(shù)據(jù)庫學(xué)習(xí)得到特征變換矩陣,在此基礎(chǔ)上對特征矩陣F進(jìn)行特征變換.獲得特征變換矩陣的過程如下:
1)構(gòu)造標(biāo)記矩陣Qdiag{q1,q2,···,qN}RN×N,如果超像素pi在人工標(biāo)注的顯著性區(qū)域內(nèi),qi0,否則qi1.
圖1 本文方法的總體框架Fig.1 The overall framework of the proposed method
2)根據(jù)下式利用數(shù)據(jù)庫中K幅圖像學(xué)習(xí)特征變換矩陣T的優(yōu)化模型[19].
其中,FkRd×Nk為第k幅圖像的特征矩陣,Nk表示第k幅圖像的超像素個數(shù),QkRNk×Nk為第k幅圖像的標(biāo)記矩陣;表示矩陣的核范數(shù),即矩陣的所有奇異值之和,γ是權(quán)重系數(shù),在一定意義下,核范數(shù)是矩陣的秩的最佳凸估計(jì);2 表示矩陣T的2 范數(shù),c是一個常數(shù),阻止T任意變大或變小.如果特征變換矩陣T是合適的,則TFQ是低秩的,的作用是為了避免當(dāng)T的秩任意小時(shí)得到平凡解[20].
3)找到梯度下降方向,即
具體過程參見文獻(xiàn)[20].
4)利用下式更新特征變換矩陣T,直到算法收斂至局部最優(yōu).
其中α為步長.
圖2 顯示部分中間過程結(jié)果.圖2(a)是原圖;圖2(b)表示Mean-shift 聚類結(jié)果,可以看出由于背景復(fù)雜,聚類后的圖像背景的相似性不夠高,不利于低秩稀疏分解;圖2(c)表示R、G、B 三個特征經(jīng)過特征變換后合成的可視化結(jié)果,可以看出特征變換后背景的相似性明顯提高;圖2(d)表示利用特征變換矩陣對特征矩陣進(jìn)行特征變換,再對變換后的特征矩陣進(jìn)行低秩稀疏分解得到的顯著圖;圖2(e)是真值圖.從圖2 可以看出,其中的背景噪聲比較多,感興趣區(qū)域不突出,顯著圖并不理想.說明雖然特征變換提高了背景的相似性,在一定程度上提升了低秩稀疏分解的效果,但由于背景非常復(fù)雜,僅基于顏色、紋理和邊緣等低層次信息仍然無法得到準(zhǔn)確的感興趣區(qū)域.因此本文考慮在特征變換時(shí)融入高層語義先驗(yàn)知識,進(jìn)一步提高特征的有效性.
圖2 部分中間過程結(jié)果圖Fig.2 Part of the intermediate process result
如前所述,僅利用特征變換矩陣對特征矩陣進(jìn)行變換,得到的最終顯著圖并不理想,這是由于僅利用底層特征提取顯著圖,干擾物體比較多,因此需要補(bǔ)充高層次信息以提升效果.本文采用的高層語義先驗(yàn)知識主要是根據(jù)以往經(jīng)驗(yàn)(即訓(xùn)練樣本)預(yù)測圖像中最有可能感興趣的區(qū)域,利用全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到高層語義先驗(yàn)知識,并將其融入到特征變換過程中,用以優(yōu)化最終的顯著圖.卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)是一種多階段可全局訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)模型,可以從經(jīng)過少量預(yù)處理甚至最原始的數(shù)據(jù)中學(xué)習(xí)到抽象的、本質(zhì)的、高階的特征[28].全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)是卷積神經(jīng)網(wǎng)絡(luò)的一種擴(kuò)展形式,由Matan 等首次提出[29],并成功運(yùn)用到經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5中.FCNN 可以接受任意尺寸的輸入圖像,與CNN的區(qū)別在于FCNN 以反卷積層代替全連接層,對最后一個卷積層的feature map 進(jìn)行上采樣,從而恢復(fù)到與輸入圖像相同的尺寸,最后在上采樣的特征圖上進(jìn)行逐像素分類,對每個像素都產(chǎn)生一個二分類預(yù)測,輸出像素級別的分類結(jié)果,從而解決了語義級別的圖像分割問題.語義先驗(yàn)是感興趣區(qū)域檢測的一種重要的高層次信息,可以輔助檢測感興趣區(qū)域,因此本文利用FCNN 得到高層語義先驗(yàn)知識并將其用于感興趣區(qū)域檢測.
FCNN 的網(wǎng)絡(luò)結(jié)構(gòu)[24]如圖3 所示,本文在原分類器參數(shù)的基礎(chǔ)上,利用MSRA 數(shù)據(jù)庫使用反向傳播算法微調(diào)FCNN 所有層的參數(shù).
實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)集來自MSRA 數(shù)據(jù)庫中標(biāo)記的17 838 張圖片,將訓(xùn)練圖像標(biāo)記為前景和背景兩類.在如圖3 所示的網(wǎng)絡(luò)結(jié)構(gòu)中,第1 行在交替經(jīng)過7 個卷積層和5 個池化層之后,得到feature map,最后一步反卷積層是對feature map 進(jìn)行步長為32像素的上采樣,此時(shí)的網(wǎng)絡(luò)結(jié)構(gòu)記為FCNN-32s.本文首先訓(xùn)練得到FCNN-32s 模型,實(shí)驗(yàn)發(fā)現(xiàn),由于經(jīng)過多次最大池化操作造成精度下降,直接對降采樣輸出的feature map 進(jìn)行上采樣會導(dǎo)致輸出結(jié)果非常粗糙,損失很多細(xì)節(jié).因此,本文嘗試將步長為32 像素上采樣得到的特征做2 倍上采樣,與步長為16 像素上采樣得到的特征進(jìn)行求和,并將得到的特征上采樣至原圖大小進(jìn)行訓(xùn)練,得到FCNN-16s 模型,此時(shí)獲得了相比于FCNN-32s 更加精確的細(xì)節(jié)信息.使用同樣的方法繼續(xù)訓(xùn)練網(wǎng)絡(luò)得到FCNN-8s模型,對細(xì)節(jié)信息的預(yù)測更為準(zhǔn)確.實(shí)驗(yàn)表明,繼續(xù)融合更底層的特征訓(xùn)練網(wǎng)絡(luò)雖然能使得細(xì)節(jié)信息預(yù)測更為準(zhǔn)確,但對低秩稀疏分解所得結(jié)果圖的效果提升不明顯,而訓(xùn)練時(shí)間會明顯增加,故本文采用FCNN-8s 模型獲取圖像的高層語義先驗(yàn)知識,而不再融合更底層的特征.
至此,已訓(xùn)練得到FCNN-8s 模型.對于每一幅待處理圖像,利用訓(xùn)練好的FCNN-8s 模型進(jìn)行處理,輸出基于FCNN 的語義先驗(yàn)知識,據(jù)此構(gòu)建相應(yīng)的高層語義先驗(yàn)知識矩陣RN×N,即
其中,pri表示FCNN 測試結(jié)果圖像中超像素pi內(nèi)所有像素的均值.
圖4 是FCNN 高層語義先驗(yàn)知識及顯著性結(jié)果圖.圖4(a)是原圖;圖4(b)是基于FCNN 的高層語義先驗(yàn)知識;圖4(c)是融合高層先驗(yàn)知識后基于低秩稀疏分解的結(jié)果圖;圖4(d)是文獻(xiàn)[20]方法的結(jié)果圖;圖4(e)是真值圖.圖4(b)中白色區(qū)域是根據(jù)訓(xùn)練圖像學(xué)習(xí)得到的高層語義先驗(yàn)知識,即FCNN 預(yù)測的前景目標(biāo)物體.經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),基于FCNN 得到的高層語義信息對目標(biāo)物體的定位比較準(zhǔn)確.雖然有些目標(biāo)物體的輪廓變形(例如圖4(b)中的第2 行)有時(shí)存在誤檢(例如圖4(b)中的第1行),但是并不影響其消除背景噪聲的作用,將其應(yīng)用到低秩稀疏分解(低秩稀疏分解方法將在第1.4節(jié)中介紹)中,可以提升感興趣區(qū)域的檢測效果.尤其是在復(fù)雜背景下,相比于文獻(xiàn)[20]利用中心、顏色、人臉先驗(yàn)知識得到的結(jié)果而言,融合FCNN 高層語義先驗(yàn)知識后,基于低秩稀疏分解的檢測效果明顯改善,如圖4(c)和圖4(d)的對比結(jié)果所示.
圖3 FCNN 的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The network structure of FCNN
圖4 FCNN 高層語義先驗(yàn)知識及顯著性檢測結(jié)果圖比較Fig.4 The FCNN high-level semantic prior knowledge and the comparison of saliency detection results
需要說明的是,雖然FCNN 能夠準(zhǔn)確預(yù)測人們感興趣的前景目標(biāo),但給出的前景目標(biāo)既不完整,也不精細(xì),如圖4(b)所示,需要進(jìn)一步修正.所以本文利用FCNN 定位出前景目標(biāo)并將其作為高層先驗(yàn)知識與提取的傳統(tǒng)特征相融合,然后再進(jìn)行低秩稀疏分解,得到最終的顯著性檢測結(jié)果,具體見第1.4 節(jié).
受文獻(xiàn)[18]的啟發(fā),圖像中的背景可表達(dá)為低秩矩陣,而顯著區(qū)域可看作是稀疏噪聲.對于一幅原始圖像,首先根據(jù)第1.1 節(jié)所述方法得出特征矩陣F[f1,f2,···,fN]Rd×N,以及根據(jù)第1.2 節(jié)得出特征變換矩陣T,然后根據(jù)第1.3 節(jié)得出高層先驗(yàn)知識P.根據(jù)下式,利用學(xué)習(xí)得到的特征變換矩陣T和高層語義先驗(yàn)知識P對特征矩陣F進(jìn)行變換,并利用魯棒主成分分析算法[30]對變換后的矩陣進(jìn)行低秩稀疏分解.
其中,Rd×N是特征矩陣,Rd×d是學(xué)習(xí)得到的特征變換矩陣,RN×N是高層先驗(yàn)知識矩陣,Rd×N表示低秩矩陣,Rd×N表示稀疏矩陣,表示矩陣的核范數(shù),即矩陣的所有奇異值之和,1 表示矩陣的1 范數(shù),即矩陣中所有元素的絕對值之和.
假設(shè)是稀疏矩陣的最優(yōu)解,由下式可計(jì)算出顯著圖為
其中,Sal(pi)表示超像素pi的顯著值,(:,i)1表示的第i列向量的1 范數(shù),即向量中所有元素的絕對值之和.
利用兩個公開標(biāo)準(zhǔn)數(shù)據(jù)庫MSRA-test1000 和PASCAL?S 對方法的準(zhǔn)確性和有效性進(jìn)行評價(jià).MSRA-test1000 是本文在MSRA-20000 數(shù)據(jù)庫中隨機(jī)挑選出來的1 000 幅圖像,這些圖像未參與高層先驗(yàn)知識的訓(xùn)練,其中有些圖像背景比較復(fù)雜,如圖5(a)所示.PASCAL?S 來源于PASCAL VOC2010 數(shù)據(jù)庫,包含了850 幅復(fù)雜背景的自然圖像.這些數(shù)據(jù)庫圖片都有人工標(biāo)注的真值圖,方便對算法進(jìn)行客觀評價(jià).
將本文方法與當(dāng)前較為經(jīng)典和流行的算法進(jìn)行比較,包括基于頻域的FT 算法[11]、SR 算法[10]、基于上下文感知的CA 算法[14]、基于濾波的SF 算法[13]、基于凸殼中心和圖形正則化的GR 算法[15]、基于流行排序的MR 算法[16]、基于單層元胞自動機(jī)的BSCA 算法[17]和基于低秩矩陣恢復(fù)并且融合先驗(yàn)知識的LRMR 算法[20].這8 種傳統(tǒng)算法是前述自上而下和自下而上方法中較為經(jīng)典或者處理效果較好的算法,源代碼均由作者提供.此外,將本文算法與基于深度學(xué)習(xí)的RFCN 算法[22]和DS 算法[23]進(jìn)行對比.
圖5 實(shí)驗(yàn)結(jié)果比較圖Fig.5 The comparison of experimental results
圖5 是本文方法結(jié)果與其他8 種傳統(tǒng)算法的結(jié)果比較圖.圖5(a)~5(l)分別是原圖、真值圖、FT 算法、SR 算法、CA 算法、SF 算法、GR 算法、MR 算法、BSCA 算法、LRMR 算法、和FCNN高層語義先驗(yàn)知識、本文算法.由圖中對比效果可以直觀看出,FT 算法可以檢測出部分圖像的感興趣區(qū)域,但背景噪聲較多.SR 和CA 算法可以較為準(zhǔn)確地定位感興趣區(qū)域,但是檢測出的感興趣區(qū)域邊緣較明顯而內(nèi)部區(qū)域不突出,并且背景噪聲較多.SF 算法背景噪聲小,但是感興趣區(qū)域顯著度不高.GR、MR、BSCA 和LRMR 算法都是比較優(yōu)秀的算法,對于背景與感興趣區(qū)域?qū)Ρ榷容^明顯的圖像可以很好地檢測出感興趣區(qū)域,但是對背景噪聲抑制有些不足,例如第2 行和第4 行的圖像;對于背景復(fù)雜的圖像,感興趣區(qū)域與背景對比度不明顯,這4 種方法不能很好地定位感興趣區(qū)域,檢測出的感興趣區(qū)域顯著度不夠高,背景噪聲抑制不足,例如第1、3 和5 行的圖像.本文方法可以在復(fù)雜的圖像中準(zhǔn)確檢測出感興趣區(qū)域,并且很好地抑制背景噪聲,與其他8 種算法相比更接近于真值圖.此外,圖5(k)是FCNN 高層語義先驗(yàn)知識圖,由圖可以看出,FCNN 高層先驗(yàn)知識圖可以準(zhǔn)確定位感興趣區(qū)域,但是對于細(xì)節(jié)的表達(dá)有些粗糙,例如第2、4 和5 行的圖像,由圖5(l)可以看出,本文方法可以利用FCNN 高層先驗(yàn)知識更好地處理一些細(xì)節(jié),這也證明了FCNN 高層語義先驗(yàn)知識對文本方法的貢獻(xiàn)是較為突出的.
為了對本文方法的性能進(jìn)行客觀評價(jià),采用四個評價(jià)指標(biāo),即準(zhǔn)確率(Precision)、召回率(Recall)、F-measure 以及平均絕對誤差(Mean absolute error,MAE)進(jìn)行對比分析.
2.2.1 與傳統(tǒng)方法比較
1)準(zhǔn)確率和召回率
首先采用最常用的準(zhǔn)確率–召回率曲線對算法進(jìn)行客觀比較.如下式所示.
依次選取0 到255 之間的灰度值作為閾值Ti,分別將各算法的結(jié)果圖進(jìn)行二值化,得到二值圖,并與人工標(biāo)注的真值圖進(jìn)行比較,利用下列二式計(jì)算各算法的準(zhǔn)確率Pi和召回率Ri,并畫出Precision-Recall 曲線.
其中,STi表示顯著圖經(jīng)過二值分割后值為1 的區(qū)域,GT表示真值圖中值為1 的區(qū)域,|R|表示區(qū)域R中的像素個數(shù).
Precision-Recall 曲線中,在相同召回率下,準(zhǔn)確率越高,說明對應(yīng)的方法越有效.圖6 是9 種算法在MSRA-test1000 和PASCAL?S 兩個數(shù)據(jù)庫上的Precision-Recall 曲線,由圖可以看出,在這兩個數(shù)據(jù)庫上本文方法優(yōu)于其他算法.
為了綜合考慮準(zhǔn)確率和召回率,本文采用Fmeasure(Fβ)進(jìn)一步評價(jià)各個算法.
其中,P是準(zhǔn)確率,R是召回率,β是權(quán)重系數(shù).根據(jù)文獻(xiàn)[11],設(shè)置β20.3,可以達(dá)到突出準(zhǔn)確率的目的.F-measure 衡量了準(zhǔn)確率和召回率的整體性能,數(shù)值越大,說明方法性能越好.計(jì)算F-measure時(shí),需要將各個算法結(jié)果在同等條件進(jìn)行二值化,本文采用自適應(yīng)閾值分割算法,即將閾值設(shè)置為每幅顯著圖的平均值,然后與真值圖進(jìn)行比較,計(jì)算得到準(zhǔn)確率和召回率,再利用式(10)計(jì)算F-measure值.圖7 是9 種算法在兩個數(shù)據(jù)庫上的比較結(jié)果,可以看出本文方法的F-measure 最大.
圖6 準(zhǔn)確率–召回率比較Fig.6 The comparison of Precision-Recall curves
2)平均絕對誤差
Precision-Recall 曲線只是評價(jià)目標(biāo)的準(zhǔn)確性,而沒有評判非顯著區(qū)域,即不能表征算法對背景噪聲的抑制情況,因此本文利用平均絕對誤差(MAE)對整幅圖進(jìn)行評價(jià).MAE 是以像素點(diǎn)為單位計(jì)算顯著圖與真值圖之間的平均差異,計(jì)算公式為
其中,M和N代表圖像的高度和寬度,S(i,j)代表顯著圖對應(yīng)的像素值,GT(i,j)代表真值圖對應(yīng)的像素值.顯然MAE 的值越小,顯著圖越接近于真值圖.表1 為9 種算法的MAE 比較結(jié)果.可以看出,在兩個數(shù)據(jù)庫中本文方法的MAE 值均小于其他8種算法,說明本文方法的顯著圖更接近于真值圖.
圖7 F-measure 比較Fig.7 The comparison of F-measure
3)運(yùn)行時(shí)間
在配置為i7-6700 k,內(nèi)存32 GB,4.00 GHz CPU 的PC 機(jī)上利用MATLAB2012a 運(yùn)行9 種算法,平均運(yùn)行時(shí)間如表2 所示.
綜合表1 和表2 可以看出,早期的一些算法,如FT、SR 和SF,雖然運(yùn)行時(shí)間較快,但是在主觀評價(jià)和客觀評價(jià)中表現(xiàn)不太理想;CA 算法運(yùn)行時(shí)間較長;GR、MR 和BSCA 算法在時(shí)間上稍慢于早期的幾種算法,但效果有明顯提高;本文方法的運(yùn)行時(shí)間與LRMR 算法相當(dāng),雖然時(shí)間上沒有太大的優(yōu)勢,但是無論是主觀對比還是客觀的P-R 曲線、F-measure 和MAE 等指標(biāo)的對比,都明顯優(yōu)于其他算法.
表1 本文方法與傳統(tǒng)方法的MAE 比較Table 1 The comparison of MAE between the proposed method and traditional methods
表2 本文方法與其他方法的平均運(yùn)行時(shí)間比較Table 2 The comparison of average running time between the proposed method and other methods
2.2.2 與深度學(xué)習(xí)方法比較
圖4 雖然體現(xiàn)出了FCNN 高層先驗(yàn)知識的不足之處,但并不能否認(rèn)它的重要作用.本節(jié)通過比較FCNN 分割的前景目標(biāo)與本文最終分割得到的感興趣區(qū)域的準(zhǔn)確性說明FCNN 在本文方法中的重要作用.由于得到的FCNN 高層先驗(yàn)知識是二值圖像,所以將本文方法結(jié)果圖進(jìn)行二值化,在MAE 指標(biāo)上對二者進(jìn)行比較.表3 是二者在兩個數(shù)據(jù)庫上的MAE 值對比,可以看出本文方法的二值化結(jié)果與FCNN 結(jié)果圖的MAE 值很相近,說明本文方法的結(jié)果圖在一定程度上是由FCNN 結(jié)果圖決定的.
表4 為在PASCAL-S 數(shù)據(jù)庫上本文方法與RFCN 算法、DS 算法的F-measure 值和MAE 對比.可以看出,在PASCAL-S 數(shù)據(jù)庫上,一方面,本文方法的F-measure 值高于其他兩種算法,說明本文方法穩(wěn)健性很好;另一方面,本文方法的MAE 指標(biāo)略高于DS 算法.本文方法F-measure 值較好但MAE 指標(biāo)略差的原因是經(jīng)過低秩稀疏分解得到的稀疏矩陣能準(zhǔn)確反映顯著區(qū)域的位置,但稀疏矩陣中的數(shù)值偏低,造成恢復(fù)得到的結(jié)果圖中顯著區(qū)域的灰度值偏低(如圖5 所示).
表3 FCNN 分割的前景目標(biāo)與本文最終分割得到的二值感興趣區(qū)域的MAE 比較Table 3 The comparison of MAE between the segmented foreground object by FCNN and the segmented binary ROI by the proposed method
表4 本文方法與深度學(xué)習(xí)方法的指標(biāo)比較Table 4 The comparison of evaluation indexs between the proposed method and deep learning methods
為了證實(shí)以上分析的正確性,本文對顯著性結(jié)果乘以一個線性因子θ進(jìn)行對比度線性拉伸,再計(jì)算MAE 指標(biāo),并繪制θ-MAE 關(guān)系圖,如圖8 所示.由圖8 可以看出,θ3.2 時(shí),本文方法的MAE 值與DS 算法相當(dāng),如果θ繼續(xù)增大,則本文方法的MAE 值優(yōu)于DS 算法.
圖8 對本文結(jié)果進(jìn)行線性拉伸后與DS 方法的MAE 值比較Fig.8 The comparison of MAE between the results of linear stretching in this paper and the results of the DS method
因此綜合來看,本文方法是一種定位準(zhǔn)確、檢測信息完整的顯著性檢測方法.
本文提出一種基于全卷積神經(jīng)網(wǎng)絡(luò)與低秩稀疏分解的顯著性檢測方法.首先,對原圖像進(jìn)行超像素聚類,并提取每個超像素的顏色、紋理和邊緣特征,據(jù)此構(gòu)成圖像的特征矩陣;然后,利用MSRA數(shù)據(jù)庫基于梯度下降法學(xué)習(xí)得到特征變換矩陣;接著,再次利用MSRA 數(shù)據(jù)庫對全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào),學(xué)習(xí)得到高層語義先驗(yàn)知識矩陣;最后,利用特征變換矩陣和高層語義先驗(yàn)知識矩陣對特征矩陣進(jìn)行變換,再利用魯棒主成分分析算法對變換后的矩陣進(jìn)行低秩稀疏分解,得到最終的顯著圖.在公開的MSRA-test1000 和PASCAL?S 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,在準(zhǔn)確率–召回率曲線、F-measure 和MAE 指標(biāo)上優(yōu)于當(dāng)前流行算法.