于芝濤,姬婷婷,程孝龍,趙紅苗,姬光榮,鄭海永
(中國海洋大學信息科學與工程學院,山東 青島 266100)
基于自適應(yīng)幅度譜分析的顯著目標檢測?
于芝濤,姬婷婷,程孝龍,趙紅苗,姬光榮,鄭海永??
(中國海洋大學信息科學與工程學院,山東 青島 266100)
針對HFT顯著性檢測方法中出現(xiàn)的顯著目標突顯不均勻以及顯著信息丟失問題,結(jié)合尺度空間分析的方法,提出一種基于自適應(yīng)幅度譜分析的顯著目標檢測算法。該算法利用頻域濾波尺度與顯著目標尺寸之間的關(guān)系,對圖像幅度譜的尖刺進行處理,突出顯著性區(qū)域,保證了顯著目標的均勻性。同時引入高斯偏見對多幅顯著圖進行融合,進一步保留顯著信息,改善了顯著圖效果。在國際公開的數(shù)據(jù)集和藻種圖像數(shù)據(jù)集上,該算法的檢測結(jié)果具有更高的精度和更好的召回率,優(yōu)于現(xiàn)有的其他頻域顯著性檢測算法。
顯著性檢測;顯著目標檢測;幅度譜;最優(yōu)尺度
由于視覺系統(tǒng)中的視覺注意機制,人類能夠簡單快速地找到一幅場景中感興趣的區(qū)域,并對其進行優(yōu)先處理。到目前為止,關(guān)于顯著性的研究被大致分為兩類:注意焦點預(yù)測和顯著性區(qū)域檢測[1-2]。注視焦點預(yù)測旨在通過模擬人眼運動計算“顯著圖”,在Koch和Ullman[3]提出的非常有影響力的生物啟發(fā)模型的基礎(chǔ)上,Itti等[4]建立了第一個自底向上的顯著性檢測模型。之后,注視焦點預(yù)測研究取得了矚目的發(fā)展[5-9],但是它的預(yù)測結(jié)果往往趨向于突出邊緣和角點而不是整個顯著性物體,因此,注視焦點預(yù)測方法在實際應(yīng)用中的價值不高[1]。
顯著目標檢測可以用來檢測一幅場景中最顯著的區(qū)域,并且能夠分割出整個顯著目標[2,10]。Liu等[11]通過條件隨機場(CRF)學習,把局部、區(qū)域和全局的顯著目標特征結(jié)合起來進行顯著目標檢測。Achanta等[12]提出了頻率調(diào)諧方法,用某個像素與整個圖像的平均色的色差直接定義顯著度值。Cheng等人[13]提出了基于區(qū)域?qū)Ρ榷确治龅娘@著目標檢測算法。顯著目標檢測強調(diào)將整個顯著物體提取出來,因此,它在計算機視覺領(lǐng)域具有廣泛的應(yīng)用[8],如圖像分割、圖像場景分析、圖像編輯、圖像或視頻壓縮和目標識別等。盡管計算的精度越來越高,然而這些方法運用了更多的特征以及更復(fù)雜的算法,導(dǎo)致計算的時間復(fù)雜度增高,處理效率低,因此不適用于工程實時性顯著目標檢測。
頻域顯著目標檢測具有簡單、快速、有效的特點,因此,頻域處理越來越多的受到了人們的關(guān)注。Hou和Zhang提出了剩余譜(SR)的方法[14],第一次將顯著性檢測引入到頻域。Guo等[15]認為,剩余譜并非對應(yīng)圖像的顯著性區(qū)域,從而舍棄了幅度譜的所有信息,只保留了相位譜信息。Li等[16]經(jīng)過分析后認為,SR模型只能突出圖像的邊緣,不能突出大的顯著性目標,從而提出了HFT模型,對幅度譜作了低通濾波處理,平滑幅度譜中的尖刺,抑制了頻繁出現(xiàn)的模式(背景),進而可以突出大尺寸和小尺寸的顯著目標。但是,HFT模型選擇的最優(yōu)尺度不夠準確,而且由于從多個尺度中只選擇一個,所以會丟失部分顯著性信息。
本文在譜尺度空間基礎(chǔ)上提出了自適應(yīng)幅度譜分析的顯著目標檢測算法。通過頻域濾波尺度與顯著目標尺寸的關(guān)系解決了尺度最優(yōu)選擇的問題。為了更多的保留圖像的顯著性信息,引入了中央先驗的高斯偏見模型對多個顯著圖進行融合,提高了顯著目標檢測的質(zhì)量。我們在國際上現(xiàn)有的公開基準數(shù)據(jù)集和藻種數(shù)據(jù)集上測試了結(jié)果,并且與現(xiàn)有的譜顯著性檢測方法進行了比較,實驗說明本文方法和之前已有的方法相比,在精準度和召回率方面都有了明顯的提高。
最近,Li等[16]提出了基于譜尺度空間顯著性檢測模型(HFT)。該模型認為空間域中,重復(fù)出現(xiàn)的模式(非顯著區(qū)域)一般不會引起視覺注意,這些模式對應(yīng)于頻域幅度譜一個或多個尖刺,為了抑制非顯著區(qū)域,HFT模型用一系列高斯低通濾波器對圖像的幅度譜進行平滑,對于譜尺度空間的每個尺度使用傅里葉變換得到對應(yīng)的顯著圖,最后通過計算二維熵找出最優(yōu)顯著圖。
該模型盡管可以同時突出大的顯著目標和小的顯著目標,但是,用最小二維熵值確定最優(yōu)顯著圖并不好。
如圖1,假設(shè)一幅圖像中整個圓形區(qū)域是顯著區(qū)域,(a)是突出整個圓形區(qū)域的圓,(b)是突出邊緣的圓環(huán)。通過計算二維熵可得,圓形的熵為3.25,圓環(huán)的熵為2.99,根據(jù)HFT模型可知,最優(yōu)顯著圖應(yīng)當選取熵值較小的圖像作為最終顯著圖,因此,他們會把圓環(huán)作為最終顯著圖,這種選擇顯然是錯誤的。另外,對于一幅圖像中存在多個目標情況,由于HFT模型只從多個尺度對應(yīng)的顯著圖中選擇一個,所以將丟失部分顯著信息,使得最終顯著圖不能將多個顯著區(qū)域均勻的突出出來。本文針對這些問題提出了一種新的顯著目標檢測算法—基于自適應(yīng)幅度譜分析的顯著目標檢測算法。
圖1 突出整個目標和突出目標輪廓的顯著圖Fig.1 The saliency maps pop-out the whole and the boarder object
Li等[16]已經(jīng)證明:如果濾波尺度(σ)太小,重復(fù)模式的背景區(qū)域就不能得到有效的抑制;如果濾波尺度太大,則只能突出圖像顯著目標的邊緣,因此,選擇一個合適尺度的高斯核濾波器非常重要。為了找到正確的尺度,我們研究了前景背景比值與最優(yōu)尺度之間的關(guān)系。
為了便于理解,選擇一維信號作為例子。圖2的第一行是前景(顯著目標)長度為l,背景重復(fù)模式長度為L的信號,然后將該信號進行傅里葉變換,得到頻域的幅度譜,通過一系列不同尺度的高斯核g(x;σ)與幅度譜進行卷積獲得頻域的幅度譜空間,高斯核為:
(1)
其中,σ代表幅度譜濾波器的濾波尺度。圖2中剩余的行代表尺度空間中,不同尺度高斯濾波器濾波獲得的幅度譜與原始信號的相位譜進行傅里葉反變換獲得的一系列重構(gòu)顯著信號。重構(gòu)的顯著信號越接近前景信號,顯著性就越好。我們定義了相似度γ用來量化前景信號與重構(gòu)信號的相似性:
(2)
同理,該種規(guī)則同樣適用于二維信號,因此,幅度譜濾波的二維高斯核為:
(3)
(4)
其中:σ是高斯核的濾波尺度;H和W分別是圖像的高度和寬度;h和w分別代表顯著目標的高度和寬度f是高度和寬度的對應(yīng)函數(shù);α是一個調(diào)節(jié)函數(shù)。
在顯著性目標檢測中,幅度譜最優(yōu)濾波尺度分析為獲得幅度譜最優(yōu)濾波尺度提供了量化的策略。
我們的方法首先結(jié)合圖像的顏色和亮度信息,創(chuàng)建四元數(shù)傅里葉變換,通過image signature算子[17]估測每個顯著區(qū)域的大小,然后根據(jù)公式(4)自動獲得對應(yīng)的最優(yōu)濾波尺度,最后由中央偏見策略將傅里葉反變換后的顯著圖融合成最終顯著圖。本文的算法框架見圖4。
3.1 四元數(shù)傅里葉變換
為了將彩色圖像多個特征結(jié)合在一起,我選擇了四元數(shù)傅里葉變換[18-19]進行處理。對于時間為t的
圖2 最優(yōu)濾波尺度對應(yīng)的重構(gòu)信號的選擇Fig.2 The selection of reconstructed signal corresponding to optimal scale
圖3 圖像前景背景的尺寸比率l/L與最優(yōu)尺度σ關(guān)系 曲線(實線)及它的擬合曲線(曲線)Fig.3 The relation curve (solid line) of the optimal scale σwith respect to the length ratio l/L and its fitting curve
一幀彩色圖像I(x,y;t),M、RG、BY和I為圖像的分量特征,則圖像的四元數(shù)表達為:
q(x,y;t)=M(x,y;t)+RG(x,y;t)μ1+BY(x,y;t)μ2+I(x,y;t)μ3,
(5)
其中,μ1、μ2和μ3代表3個虛數(shù),μ1μ2=μ3,μ2μ3=μ1,μ3μ1=μ2;μ1⊥μ2,μ2⊥μ3,μ3⊥μ1。鑒于本文研究的是靜態(tài)圖像,所以運動通道M和時間t都為0。通道RG(x,y)=R(x,y)-G(x,y),通道BY(x,y)=B(x,y)-Y(x,y),通道I(x,y)為圖像的亮度信息。r(x,y),g(x,y)和b(x,y)分別為彩色圖像的紅綠藍3個顏色通道,則有:
(6)
(7)
(8)
圖4 基于自適應(yīng)幅度譜分析的顯著性目標檢測框架Fig.4 The framework of our proposed method for salient object detection via adaptive amplitude spectrum analysis
(9)
(10)
輸入一張圖像,四元傅里葉變換的極坐標表示為:
Q[u,v]=A(u,v)eμ(u,v)P(u,v),
(11)
其中:A(u,v)是頻域幅度譜;P(u,v)是相位譜;μ(u,v)是四元數(shù)的本征軸譜,他們分別定義為:
(12)
(13)
(14)
(15)
3.2 尺度自動選擇
本文在第2節(jié)已經(jīng)分析了幅度譜最優(yōu)濾波尺度與顯著區(qū)域尺寸之間的對應(yīng)關(guān)系,因此,為了得到圖像中每個顯著目標所對應(yīng)的最優(yōu)尺度,我們應(yīng)該先獲得顯著目標的尺寸。
侯曉迪等人根據(jù)稀疏性理論,提出了一種簡單有效的圖像描述子—image signature[17],該描述子可以估測場景中圖像的前景和位置,其定義為:
(16)
(17)
其中,IDCT代表離散余弦反變換。基于image signature的特點,我們將把它擴展,用來估測前景(顯著性區(qū)域)的尺寸和位置。例如,圖5(a)中有兩個不同尺寸的前景物體,圖5(b)是通過公式(16)和(17)計算signature后反變換的圖像,然后我們通過高斯濾波去除噪聲,再利用最大類間方差法[20]對圖像進行二值化,通過最小外界矩形估算出前景目標,如圖5(c)中紅色矩形框即為估測的顯著目標的大小和位置。用矩形的高h和寬w表示顯著目標的尺寸,用矩形的中心位置(m,n)代表顯著性區(qū)域的位置。
圖5 Image signature確定圖像顯著目標的不同尺寸和位置Fig.5 An example of two salient objects with different size at different location calculated using image signature
通過公式4中第k個顯著目標尺寸(hk,wk)、圖像的尺寸(H,W)及α=0.5,可以計算出對應(yīng)于第k個顯著目標的最優(yōu)尺度σk。因此,將圖像的幅度譜A(u,v)與尺度為σk高斯核為g(u,v;σk)的濾波器進行卷積,得到平滑后的幅度譜:
(18)
然后,通過傅里葉反變換得到對應(yīng)最優(yōu)尺度為σk的顯著圖:
(19)
最后,通過同樣的方法求出一幅圖像中所有不同尺度獲得的所有顯著圖。
3.3 自適應(yīng)顯著圖融合
過去的一些研究[21]已經(jīng)證明了圖像中越接近中央的區(qū)域越能吸引人的注意,即越靠近圖像中心越顯著,中央偏見可以簡單有效的用高斯分布來表示。
假設(shè)一幅圖像的中心為(mc,nc),第k個顯著目標的中心為(mk,nk),則第k個顯著目標的中央偏見權(quán)重wk用高斯權(quán)重表示為:
(20)
其中,η是一個參數(shù),在實驗中被設(shè)置為16。因此,最終的融合后的顯著圖M為:
(21)
其中:K表示所有顯著目標的個數(shù);wk是通過公式(20)計算得到的自適應(yīng)高斯權(quán)重值;Sk對應(yīng)于公式(19)獲得的第k個顯著圖;g是高斯濾波器,用來提高顯著性效果。
4.1 定量分析和比較
在Achanta等人[12]提供的公開數(shù)據(jù)集MSRA和藻種圖像數(shù)據(jù)集AID上測試了我們的方法。MSRA數(shù)據(jù)集包括5 000幅自然圖像,并且由人工精確標注[22]了顯著性區(qū)域的精確輪廓。藻種圖像數(shù)據(jù)集AID包括240幅藻種圖像,它是目前最大的對藻種顯著目標精確標記的數(shù)據(jù)集。我們選擇4個當今國際上頻域處理的方法與我們的方法進行了比較,這些算法包括:SR算法[14],PQFT算法[15],SIG算法[17], HFT算法[16]。
采用文獻[12]所提的顯著目標檢測算法評價標準對以上的5種方法進行了比較。首先,對各種方法獲得顯著圖用固定閾值分割的方法進行分割,閾值從0逐步增加到255,計算出該閾值下的精度和召回率,然后將精度和召回率在數(shù)據(jù)集上進行平均,可以畫出精度-召回率曲線(P-R曲線),如圖6和7。從圖中可以看出,本文的算法具有最高的精度和召回率。
圖6 MSRA數(shù)據(jù)集下的精度-召回率曲線Fig.6 Precision-Recall curve in MSRA date set
圖7 AID數(shù)據(jù)集下的精度-召回率曲線Fig.7 Precision-Recall curve in AID date set
除了P-R曲線外,還選擇自適應(yīng)閾值分割方法對實驗結(jié)果進行處理。首先計算數(shù)據(jù)集下每一幅顯著圖的平均顯著度Sμ,每個像素的顯著度為Si,其中,顯著度表示從0到255的灰度值,值越大代表顯著程度越高。如果Si>2Sμ,則該位置是顯著的,設(shè)閾值為T(公式23),從而將顯著區(qū)域分割出來。最后計算出每種算法在數(shù)據(jù)集上的平均精度、召回率和綜合評價指標F-測量(F-measure),F(xiàn)-測量的定義為:
(22)
與文獻[12,23-24]一樣,本文β2=0.3,T為一個自適應(yīng)閾值,定義如下:
(23)
其中:M為顯著圖中所有像素的個數(shù);i是像素索引,Tmax是最大閾值,本文設(shè)置為255。平均精度、召回率和F-測量如表1、2所示,本文的算法更精確,具有更好的顯著檢測效果。表格1中我們的方法得到的平均精度、召回率和F-測量值最高。表2中盡管我們的召回率低于SIG方法,但是綜合評價指標F-measure依然高于SIG方法,而且如果簡單的將整幅圖像作為顯著區(qū)域就能得到100%的召回率,所以其影響不大。綜上評價可知:本文算法的正確性和有效性都得到了提高。
表1 MSRA數(shù)據(jù)集下的精度、召回率和F-測量值
表2 AID數(shù)據(jù)集下的精度、召回率和F-測量值
4.2 顯著效果分析和比較
為了進一步說明本文方法相比其他頻域顯著性算法的優(yōu)越性,我們展示了本文算法與其他算法在上述2個數(shù)據(jù)集上的效果圖(見圖8)。A圖是MSRA數(shù)據(jù)集中的部分自然圖像,既有單個顯著目標,又有多個顯著目標,背景相對比較復(fù)雜。B圖代表AID數(shù)據(jù)集部分圖像,其顯著目標為浮游植物,背景中含有雜質(zhì),且光照不均勻。GT圖為人工標記的真值圖(Ground Truth圖)。
從圖中檢測效果可以看出:SR方法、PQFT方法和SIG方法沒有將背景抑制掉,顯著目標和背景都突出出來;對于大的顯著目標,SR方法和PQFT方法更加突出目標邊緣,而非整個顯著區(qū)域;HFT方法盡管可以突顯整個顯著區(qū)域,但是突顯的并不均勻。本文方法能夠均勻的突顯出顯著物體,并且能夠有效地抑制背景,得到更好的顯著目標檢測效果。
圖8 不同圖像顯著性檢測算法獲得的顯著圖比較Fig.8 The image results of detecting salient objects using different methods
本文提出了一種基于幅度譜分析自底向上的自適應(yīng)顯著目標檢測算法,通過分析顯著區(qū)域的尺寸與最優(yōu)幅度譜濾波尺度之間的關(guān)系,自適應(yīng)找到不同顯著區(qū)域?qū)?yīng)的最優(yōu)高斯核對幅度譜進行平滑,通過中央偏見將不同信息的顯著圖融合在一起。在國際公開的數(shù)據(jù)集和國內(nèi)最大的藻種數(shù)據(jù)集上進行了實驗,并且與4種頻域算法進行定性和定量的對比,結(jié)果說明本文算法可以得到最好的顯著目標檢測結(jié)果,在精確度和有效性上有了較好的提高。
[1] Cheng M, Zhang Z, Lin W, et al. Bing: Binarized normed gradients for objectness estimation at 300fps [C]. Columbus: IEEE Conference on Computer Vision and Pattern Recognition, 2014: 3286-3293.
[2] Li Y, Hou X, Koch C, et al. The secrets of salient object segmentation [C]. Columbus: IEEE Conference on Computer Vision and Pattern Recognition, 2014: 280-287.
[3] Koch C, Ullman S. Shifts in selective visual attention: Towards the underlying neural circuitry [J]. Matters of Intelligence, Vol. Springer Netherlands, 1987, 188: 115-141.
[4] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20: 1254-1259.
[5] Judd T, Durand F, Torralba A. A benchmark of computational models of saliency to predict human fixations [R]. Massachusetts Institute Technology, 2012.
[6] Borji A, Sihite D, Itti L. Quantitative analysis of human-model agreement in visual saliency modeling: A comparative study [J]. IEEE Transactions on Image Processing, 2013, 22: 55-69.
[7] Borji A, Tavakoli H R, Sihite D N, et al. Analysis of scores, datasets, and models in visual saliency prediction [C]. Sydney: IEEE International Conference on Computer Vision, 2013: 921-928.
[8] Borji A, Itti L. State-of-the-art in visual attention modeling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence 2013, 20: 185-207.
[9] Vig E, Dorr M, Cox D. Large-scale optimization of hierarchical features for saliency prediction in natural images [C]. Columbus: IEEE Conference on Computer Vision and Pattern Recognition, 2014, 2798-2805.
[10] Borji A, Sihite D N, Itti L. Salient object detection: A benchmark [C]. Firenze: European Conference on Computer Vision, 2012: 414-429.
[11] Liu T, Sun J, Zheng N, et al. Learning to detect a salient object [C]. Minneapolis: IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1-8.
[12] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection [C]. Miami: IEEE Conference on Computer Vision and Pattern Recognition, 2009: 1597-1604.
[13] Cheng M, Zhang G, Mitra N J, et al. Global contrast based salient region detection [C]. Colorado: IEEE Conference on Computer Vision and Pattern Recognition, 2011: 409-416.
[14] Hou X, Zhang L. Saliency detection: A spectral residual approach [C]. Minnesota: IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1-8.
[15] Guo C, Ma Q, Zhang L. Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform [C]. Alaska: IEEE Conference on Computer Vision and Pattern Recognition, 2008: 1-8.
[16] Li J, Levine M D, An X, et al. Visual saliency based on scale-space analysis in the frequency domain [J], IEEE Transactions on Pattern Analysis and Machine Intelligence 2013,35: 996-1010.
[17] Hou X, Harel J, Koch C. Image signature: Highlighting sparse salient regions [J] IEEE Transactions on Pattern Analysis and Machine Intelligence 2012,34: 194-201.
[18] Ell T A. Hypercomplex spectral transformations [D] .MN, USA: University of Minnesota, Minneapolis, 1992.
[19] Ell T A, Sangwine S J. Hypercomplex fourier transforms of color images [J]. IEEE Transactions on Image Processing, 2007,16: 22-35.
[20] Otsu N. A threshold selection method from gray-level histograms [J]. IEEE Transactions on Systems, Man and Cybernetics 1979,9: 62-66.
[21] Judd T, Ehinger K, Durand F, et al. Learning to predict where humans look [C]. Kyoto: IEEE International Conference on Computer Vision, 2009: 2106-2113.
[22] Jiang H, Wang J, Yuan Z, et al. Salient object detection: A discriminative regional feature integration approach [C]. Portland: IEEE Conference on Computer Vision and Pattern Recognition, 2013, 2083-2090.
[23] Yan Q, Xu L, Shi J, et al. Hierarchical saliency detection [C]. IEEE Conference on Computer Vision and Pattern Recognition, 2013: 1155-1162.
[24] Shen X, Wu Y. A united approach to salient object detection via low rank matrix recovery [C]. Rhode: IEEE Conference on Computer Vision and Pattern Recognition, 2012: 853-860.
責任編輯 陳呈超
Salient Object Detection Based on Adaptive Amplitude Spectrum Analysis
YU Zhi-Tao,JI Ting-Ting,CHENG Xiao-Long,ZHAO Hong-Miao,JI Guang-Rong,ZHENG Hai-Yong
(College of Information Science and Engineering, Ocean University of China, Qingdao 266100, China)
Since HFT model may fail to highlight the salient objects uniformly and lose some meaningful saliency information, this paper proposes a salient object detection method via adaptive amplitude spectrum analysis, which combines with the scale-space analysis. In order to pop out the salient region more uniformly, the algorithm smoothes the spikes in the amplitude spectrum using the specific relation between the size of salient region and the scale of filter in frequency domain. We also introduce the Gaussian model of center bias to combine different saliency maps with more meaningful saliency information. The performance evaluation on two popular benchmark data sets validates that our method gets higher precision and better recall and so outperforms the existing spectral saliency models.
saliency detection; salient object detection; amplitude spectrum analysis; optimal scale
國家自然科學基金項目(61301240、61271406)資助 Supported by the National Natural Science Foundation of China (61301240, 61271406)
2015-01-20;
2016-01-15
于芝濤(1976-),男,博士生,主要從事圖像分析與模式識別研究。
?? 通訊作者:E-mail: zhenghaiyong@ouc.edu.cn
TP391.4
A
1672-5174(2017)07-142-07
10.16441/j.cnki.hdxb.20150080
于芝濤,姬婷婷,程孝龍,等.基于自適應(yīng)幅度譜分析的顯著目標檢測[J].中國海洋大學學報(自然科學版),2017, 47(7): 142-148.
YU Zhi-Tao,JI Ting-Ting,CHENG Xiao-Long,et al.Salient object detection based on adaptive amplitude spectrum analysis[J].Periodical of Ocean University of China, 2017, 47(7): 142-148.