錢文超,曹飛龍
(中國計(jì)量大學(xué) 理學(xué)院,浙江 杭州 310018)
在計(jì)算機(jī)視覺領(lǐng)域里,目標(biāo)顯著性檢測(cè)已經(jīng)成為一個(gè)具有挑戰(zhàn)性的熱門話題,其主要目的是提取圖像的重要信息,即人們感興趣的區(qū)域.近年來,目標(biāo)顯著性檢測(cè)已被有效地運(yùn)用于計(jì)算機(jī)視覺任務(wù)中,如圖像檢索[1-2]、圖像分割[3-4]以及對(duì)象識(shí)別[5-6].
顯著性檢測(cè)的方法一般分為兩大類.一類是基于數(shù)據(jù)驅(qū)動(dòng)的自下而上的方法[7-9],其主要依賴于顯著對(duì)象或背景的一些先驗(yàn)知識(shí),例如顏色、紋理和位置等;另一類是基于目標(biāo)任務(wù)驅(qū)動(dòng)的自上而下的方法[10-11],該類方法需要利用標(biāo)簽進(jìn)行有監(jiān)督的學(xué)習(xí)訓(xùn)練.隨著低秩矩陣恢復(fù)研究的興起,很多學(xué)者也將其原理應(yīng)用到目標(biāo)顯著性檢測(cè)問題上,結(jié)合自下而上的方法,給出了一些基于低秩矩陣恢復(fù)的顯著性檢測(cè)方法[12-15].
假設(shè)一張圖像可以分成信息冗余部分(即圖像背景,通常處于低維特征子空間,具有低秩或近似低秩結(jié)構(gòu))和顯著目標(biāo)部分(即顯著對(duì)象,具有稀疏結(jié)構(gòu),可視為稀疏噪聲或誤差).換言之,對(duì)于給定的圖像特征矩陣F∈Rm×n,可以拆分成一個(gè)對(duì)應(yīng)圖像背景的低秩矩陣L∈Rm×n和一個(gè)對(duì)應(yīng)顯著對(duì)象的稀疏矩陣S∈Rm×n.基于這樣的假設(shè),目標(biāo)顯著性檢測(cè)可以看成是矩陣的低秩稀疏分解問題:
(1)
其中,rank(·)為秩函數(shù),λ為正則化參數(shù),‖·‖0為l0范數(shù).
由于秩函數(shù)是非凸的,并且不連續(xù),因此(1)是一個(gè)NP難問題.所以,根據(jù)壓縮感知[16-17]的理論,利用核范數(shù)(Nuclear Norm,簡(jiǎn)寫為NN)和l1范數(shù)分別對(duì)秩函數(shù)和l0范數(shù)進(jìn)行替代,將非凸優(yōu)化問題(1)轉(zhuǎn)化成以下凸優(yōu)化問題:
(2)
盡管一些基于核范數(shù)的最小優(yōu)化模型能較好地逼近非凸優(yōu)化模型(1),且具有很強(qiáng)的理論保證,但在實(shí)際應(yīng)用中卻只能獲得次優(yōu)解.這是因?yàn)樗蟹橇闫娈愔祵?duì)秩函數(shù)的影響是相同的,而核范數(shù)將所有非零奇異值加在一起,并且同時(shí)最小化,使得奇異值具有不同的貢獻(xiàn).因此,核范數(shù)不能成為秩函數(shù)的最佳近似替代.
受加權(quán)Schatten-p范數(shù)的啟發(fā),為了提高顯著性檢測(cè)的精確度,我們利用加權(quán)Schatten-p范數(shù)的思想,對(duì)背景矩陣L進(jìn)行低秩約束,并引入具有樹結(jié)構(gòu)稀疏特性的l2,1范數(shù)和圖像拉普拉斯正則化對(duì)目標(biāo)矩陣S進(jìn)行稀疏約束,建立一個(gè)用于目標(biāo)顯著性檢測(cè)的基于加權(quán)Schatten-p范數(shù)的低秩樹結(jié)構(gòu)稀疏分解模型(簡(jiǎn)稱為WSPN-LRSSD).然后,運(yùn)用交替方向迭代算法(alternating direction method of multiples,ADMM)求解模型.最后,通過目標(biāo)顯著性檢測(cè)實(shí)驗(yàn)說明該模型的優(yōu)勢(shì).
本文內(nèi)容安排如下.在第一部分中,詳細(xì)介紹所提出模型的結(jié)構(gòu)以及模型求解過程.第二部分通過對(duì)實(shí)驗(yàn)結(jié)果的分析,說明本文模型的優(yōu)勢(shì).最后在第三部分中得出結(jié)論.
給定一張輸入圖像I,首先通過簡(jiǎn)單線性迭代聚類方法[23](simple linear iterative clustering,簡(jiǎn)寫為SLIC)將I分割成互不重疊的N個(gè)超像素塊.然后,對(duì)于每個(gè)超像素塊Pi提取一個(gè)D維的特征向量,記為fi∈RD.最后,將所有超像素塊的特征向量整合成一個(gè)表示圖像I的特征矩陣F=[f1,…,fN]∈RD×N.
本文提出如下基于加權(quán)Schatten-p范數(shù)的低秩樹結(jié)構(gòu)稀疏分解模型(WSPN-LRSSD):
s.t.F=L+S.
(3)
1.1.1 低秩正則化
圖像背景通常處于低維空間中,具有低秩或近似低秩的結(jié)構(gòu),因此,對(duì)圖像背景可以進(jìn)行低秩約束:
(4)
其中,σi(L)為L(zhǎng)的第i個(gè)奇異值,并且奇異值按從大到小順序排列,ωi為對(duì)應(yīng)σi(L)分配的權(quán)重,0
(5)
其中,C=2max(m2,n2),ε=10-16.
1.1.2 稀疏正則化
模型(2)中對(duì)稀疏矩陣S進(jìn)行了l1范數(shù)正則化,只是單獨(dú)處理了矩陣S的列,并沒有考慮S的空間結(jié)構(gòu).對(duì)于顯著性檢測(cè)來說,顯著對(duì)象的內(nèi)在結(jié)構(gòu)是非常重要的.所以,本文引入基于樹結(jié)構(gòu)稀疏的l2,1范數(shù)對(duì)目標(biāo)矩陣S進(jìn)行稀疏約束,使模型更加魯棒.
首先,介紹一種結(jié)構(gòu)層次劃分的方法,即索引樹.
然后,我們利用索引樹表示圖像塊之間的空間關(guān)系.基于加權(quán)樹結(jié)構(gòu)稀疏的l2,1范數(shù)可以表示為
(6)
在目標(biāo)顯著性檢測(cè)中,把顯著對(duì)象視為稀疏噪聲,然后從圖像背景中提取出來.但在實(shí)際圖像上,一些顯著對(duì)象與背景是很相似的,導(dǎo)致提取的顯著對(duì)象不清晰.為了解決這個(gè)問題,先對(duì)圖像進(jìn)行背景先驗(yàn)的提取,然后判斷每個(gè)像素(超像素)是否屬于前景顯著對(duì)象.我們利用每個(gè)超像素的圖像位置、顏色和邊緣先驗(yàn)信息,融合成圖像背景先驗(yàn).
首先,利用超像素到圖像中心距離的高斯分布來生成位置先驗(yàn):
(7)
其中,σ2為高斯分布方差,c為圖像中心.
其次,根據(jù)人眼對(duì)暖色系(如紅色和黃色)的敏感性,利用文獻(xiàn)[25]的方法,對(duì)每個(gè)超像素顏色先驗(yàn)Co(i)進(jìn)行提取.
然后,受文獻(xiàn)[11]和[26]的啟發(fā),通過計(jì)算圖像超像素Pi與邊緣超像素的交集長(zhǎng)度,以衡量Pi與圖像邊緣的連通程度,從而獲得圖像邊緣先驗(yàn)信息:
(8)
其中,B表示邊緣超像素集合,qi表示超像素Pi內(nèi)的像素個(gè)數(shù),|·|表示交集長(zhǎng)度,即兩個(gè)超像素連接的像素個(gè)數(shù).
最后,將上述三個(gè)先驗(yàn)相乘,并進(jìn)行歸一化處理,得到值在區(qū)間[0,1]內(nèi)的背景先驗(yàn)權(quán)重:
Ω(i)=Lo(i)·Co(i)·Bo(i).
(9)
再融合并擴(kuò)充為一個(gè)背景先驗(yàn)權(quán)重矩陣:
(10)
(11)
1.1.3 圖像拉普拉斯正則化
為了保留原始圖像的固有局部結(jié)構(gòu),在目標(biāo)函數(shù)中考慮加入圖像拉普拉斯正則化約束.文獻(xiàn)[27]提出這樣的假設(shè):如果兩個(gè)數(shù)據(jù)點(diǎn)xi和xj在數(shù)據(jù)分布中的固有幾何位置接近,那么在新的基中這兩個(gè)點(diǎn)的表示也彼此接近.由此可推出,如果兩個(gè)相鄰圖像塊的特征相似,則它們?cè)谧涌臻g中的表示應(yīng)該也彼此接近;反之亦然.從而,我們對(duì)顯著對(duì)象定義拉普拉斯正則化為
(12)
其中,si表示S的第i列元素,Θ∈RN×N為圖像關(guān)聯(lián)矩陣,其表達(dá)式為
(13)
本小節(jié)介紹用ADMM方法求解模型(3),先將(3)式轉(zhuǎn)化為
(14)
然后構(gòu)造模型(14)的增廣拉格朗日函數(shù)
(15)
其中,Y1和Y2是拉格朗日乘子,μ>0是懲罰參數(shù).
固定S和J,更新L:
(16)
引理1[22]已知矩陣QL的奇異值分解為QL=U∑VΤ,∑=diag(σ1,…,σr),則(16)式的最優(yōu)解為L(zhǎng)*=UΔVΤ,其中Δ=diag(γ1,…,γr)是如下優(yōu)化問題的解:
(17)
利用廣義軟閾值算法(Generalized Soft-Thresholding,簡(jiǎn)寫為GST)[28]求解(17)中的子問題,其閾值算子為
(18)
固定L和S,更新J:
(19)
對(duì)式(19)關(guān)于J求導(dǎo)并令其等于零,得到
Jk+1=(μkSk+Y2,k)(2βMF+μkI)-1.
(20)
固定L和J,更新S:
(21)
(22)
最后,更新拉格朗日乘子和懲罰參數(shù),得到
Y1,k+1=Y1,k+μk(F-Lk+1-Sk+1),
(23)
Y2,k+1=Y2,k+μk(Sk+1-Jk+1),
(24)
μk+1=min(ρμk,μmax).
(25)
其中ρ>1是一個(gè)常數(shù).
將上述模型的求解過程整理為如下算法1.
算法1(ADMM求解WSPN-LRSSD模型):
輸出:L和S;
初始化:L0=0,S0=0,J0=0,Y1,0=0,Y2,0=0,μ0=0.1,μmax=1010,ρ=1.1,以及k=0;
1:While not converged do
2:固定其它量,由式(16)更新Lk+1;
3:固定其它量,由式(19)更新Jk+1;
4:固定其它量,由式(21)更新Sk+1;
5:由式(23)與(24)分別更新Y1,k+1和Y2,k+1;
6:由式(25)更新懲罰參數(shù)μk+1;
7:k=k+1;
8:End while
9:返回Lk+1和Sk+1.
通過比較WSPN-LRSSD和其他四種方法:SMD[13]、WLRR[12]、ULR[25]和GBMR[30],并在目標(biāo)顯著性檢測(cè)上的實(shí)驗(yàn)結(jié)果,來說明我們所提出模型的優(yōu)勢(shì).實(shí)驗(yàn)選取了三個(gè)數(shù)據(jù)庫,包括ECSSD[31]、iCoSeg[32]以及Pascal1500[9].
其中ECSSD包含了1 000張不同對(duì)象且場(chǎng)景比較復(fù)雜的圖像,iCoSeg包含了38個(gè)不同對(duì)象的若干張圖像,而Pascal1500則是包含了1 500張自然圖像,顯著對(duì)象出現(xiàn)在各種位置,并且背景區(qū)域更加混亂.本文所有實(shí)驗(yàn)的環(huán)境是Intel(R)Core(TM)i3-4150 CPU @ 3.50 GHz處理器,在內(nèi)存為4 GB的計(jì)算機(jī),MATLAB版本為R2014a上運(yùn)行.
為了說明實(shí)驗(yàn)效果,我們引入三個(gè)模型評(píng)價(jià)指標(biāo).
1)平均絕對(duì)誤差(mean absolute error,簡(jiǎn)寫為MAE)[33],即檢測(cè)出的顯著對(duì)象與真實(shí)二值化顯著對(duì)象的平均絕對(duì)誤差,定義為MAE=mean(|S-GT|);
在本文實(shí)驗(yàn)中用到的分別是加權(quán)F-measure指數(shù)(WF)、平均F-measure指數(shù)(aveF)和最大F-measure指數(shù)(maxF).這五個(gè)指標(biāo)中,除了MAE值越小越好外,其余都是值越大越說明效果好.
為了說明不同p值對(duì)模型的影響,選取p為[0.2,0.8]中間隔為0.1的七個(gè)值,分別在ECSSD上進(jìn)行實(shí)驗(yàn).參數(shù)α和β分別設(shè)置為0.35和1.1.
針對(duì)于p值的不同選取,從圖1的四條曲線可知,當(dāng)p=0.3時(shí)顯著性檢測(cè)效果最好.在另外兩個(gè)數(shù)據(jù)庫上也得到相同的結(jié)論.
通過WSPN-LRSSD與SMD、WLRR、ULR以及GBMR四種方法分別在ECSSD、iCoSeg和Pascal1500三個(gè)數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)對(duì)比,來說明所提出方法的優(yōu)勢(shì).依據(jù)上述結(jié)論,在所有實(shí)驗(yàn)中設(shè)置p=0.3.
圖1 不同p值對(duì)ECSSD數(shù)據(jù)庫的顯著性檢測(cè)結(jié)果Figure 1 Results of salient object detection under different p on ECSSD database
表1、表2和表3是在三個(gè)不同數(shù)據(jù)庫中,五種方法分別進(jìn)行目標(biāo)顯著性檢測(cè)的評(píng)價(jià)指標(biāo)結(jié)果.從整體結(jié)果上看,我們的方法相比其他的方法具有較好的檢測(cè)能力,即使在比較復(fù)雜的一些圖像上,都能很好的檢測(cè)出顯著目標(biāo).
表1 五種算法在ECSSD數(shù)據(jù)庫中的顯著性檢測(cè)結(jié)果Table 1 Results of salient object detection on ECSSD database by five algorithms
注:“+”表示值越大越好;“-”表示值越小越好;黑體數(shù)值為最優(yōu)值
為了進(jìn)一步說明模型的優(yōu)勢(shì),在圖2中展示了部分由各種方法進(jìn)行目標(biāo)顯著性檢測(cè)的視覺效果圖.從左往右依次為原圖像、真實(shí)顯著對(duì)象(GT)、WSPN-LRSSD、SMD、WLRR、GBMR以及ULR方法得到的顯著目標(biāo).從圖上可以看出,WSPN-LRSSD方法檢測(cè)出的顯著目標(biāo)要比其他方法的更接近真實(shí)顯著目標(biāo).另外,WSPN-LRSSD算法對(duì)不同數(shù)據(jù)庫中的圖像的平均運(yùn)行時(shí)間為2.74 s,在時(shí)間成本上消耗較小,但是比SMD方法的時(shí)間還是長(zhǎng)了一倍多.
綜上所有分析,本文提出的模型在目標(biāo)顯著性檢測(cè)問題上具有良好的表現(xiàn),優(yōu)于其他四種檢測(cè)方法.
表2 五種算法在iCoSeg數(shù)據(jù)庫中的顯著性檢測(cè)結(jié)果Table 2 Results of salient object detection on iCoSeg database by five algorithms
表3 五種算法在Pascal1500數(shù)據(jù)庫中的顯著性檢測(cè)結(jié)果Table 3 Results of salient object detection on Pascal1500 database by five algorithms
圖2 五種方法在不同數(shù)據(jù)庫的顯著性檢測(cè)視覺效果圖Figure 2 Visual comparisons of saliency maps of five methods on different databases
本文將目標(biāo)顯著性檢測(cè)視為矩陣低秩稀疏分解問題,并提出了基于加權(quán)Schatten-p范數(shù)與樹結(jié)構(gòu)稀疏分解模型(WSPN-LRSSD).利用加權(quán)Schatten-p范數(shù)對(duì)圖像背景進(jìn)行低秩約束,而對(duì)于顯著目標(biāo),則采用具有樹結(jié)構(gòu)稀疏特性的l2,1范數(shù)和圖像拉普拉斯正則化進(jìn)行稀疏約束.同時(shí),為了更好地檢測(cè)出顯著目標(biāo),還對(duì)圖像進(jìn)行了背景先驗(yàn)提取,增大了圖像背景與顯著目標(biāo)的差異性.實(shí)驗(yàn)結(jié)果證明,不管是評(píng)價(jià)指標(biāo)還是視覺效果,本文模型具有更好的顯著性檢測(cè)性能.
在未來的工作中,考慮要縮短實(shí)驗(yàn)時(shí)間以減少時(shí)間成本.同時(shí),改進(jìn)背景先驗(yàn)的提取方法,使得獲取的背景先驗(yàn)更加有利于顯著目標(biāo)的檢測(cè).