, ,,
(1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 武漢 430062; 2.烽火通信科技股份有限公司,武漢 430073)
基于背景原型對(duì)比度的顯著性物體檢測(cè)
羅辰輝1,張偉1,沈瓊霞2,葉波1
(1.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,武漢430062; 2.烽火通信科技股份有限公司,武漢430073)
針對(duì)傳統(tǒng)顯著性模型在自然圖像的顯著性物體檢測(cè)中存在的缺陷,提出了一種利用背景原型(background prototypes)進(jìn)行對(duì)比的視覺關(guān)注模型,以實(shí)現(xiàn)顯著性物體的檢測(cè)與提取;傳統(tǒng)顯著性模型主要通過計(jì)算區(qū)域中心與四周區(qū)域差異性實(shí)現(xiàn)顯著性檢測(cè),而自然場(chǎng)景中顯著性區(qū)域和背景區(qū)域往往都存在較大差異,導(dǎo)致在復(fù)雜圖像中難以獲得理想檢測(cè)效果;基于背景原型對(duì)比度的顯著性物體檢測(cè)方法在圖像分割生成的超像素圖基礎(chǔ)上,選擇距離圖像中心較遠(yuǎn)的圖像區(qū)域作為背景原型區(qū)域,通過計(jì)算圖像中任意區(qū)域與這些背景原型區(qū)域的顏色對(duì)比度準(zhǔn)確檢測(cè)和提取圖像中的顯著性物體;實(shí)驗(yàn)結(jié)果表明,基于背景原型對(duì)比度的顯著性模型可以更好地濾除雜亂背景,產(chǎn)生更穩(wěn)定、準(zhǔn)確的顯著圖,在準(zhǔn)確率、召回率和F-measure等關(guān)鍵性能和直觀視覺效果上均優(yōu)于目前最先進(jìn)的顯著性模型,計(jì)算復(fù)雜度低,利于應(yīng)用推廣。
視覺關(guān)注;背景原型;視覺顯著度
人類注意力系統(tǒng)(human attention system, HAS)具備從一個(gè)既定場(chǎng)景中迅速定位興趣目標(biāo)的能力,這也是人類的生物視覺注意力相對(duì)普通光學(xué)設(shè)備的主要優(yōu)勢(shì)之一。因此,如何在現(xiàn)有光學(xué)設(shè)備控制系統(tǒng)中模擬實(shí)現(xiàn)HAS,使光學(xué)鏡頭能夠自動(dòng)聚焦并捕獲目標(biāo)對(duì)象,成為一個(gè)重要的研究課題。由于這些光學(xué)設(shè)備主要為基于嵌入式系統(tǒng)設(shè)計(jì)的便攜式設(shè)備,系統(tǒng)集成的計(jì)算資源有限(一般所用的處理器為嵌入式處理器,性能不高,并且內(nèi)存容量也有限),難以進(jìn)行大量高速運(yùn)算,這就要求所設(shè)計(jì)的顯著性模型必須在保證準(zhǔn)確度和可靠性的同時(shí),也要具有較低的復(fù)雜度,易于實(shí)現(xiàn)。性能需求與計(jì)算復(fù)雜度的矛盾,是圖像顯著區(qū)域檢測(cè)的主要困難,近年來眾多研究人員在此問題上付出了巨大的努力,取得了一些有效成果[1-7]。
目前顯著性模型主要分為兩類:自頂向下模型[8-9]和自底向上模型[10-14]。自頂向下的顯著性模型一般通過學(xué)習(xí)得到的高層語義信息(如人臉檢測(cè))來輔助進(jìn)行顯著性物體檢測(cè)。由于這類方法在學(xué)習(xí)過程中需要耗費(fèi)大量的計(jì)算資源,因此很難應(yīng)用到光學(xué)設(shè)備中。而自底向上的顯著性模型主要利用簡(jiǎn)單的圖像特征信息(例如亮度、顏色、方向等)來計(jì)算前景顯著度。這類方法復(fù)雜度較低,更適于移植到光學(xué)設(shè)備中。Itti等[10]率先進(jìn)行了相關(guān)研究,提出基于中心-四周對(duì)比度的顯著性模型。文獻(xiàn)[11-12]基于馬爾可夫隨機(jī)理論提出了基于圖模型的顯著性度量算法。還有一些研究人員通過檢測(cè)頻域的不規(guī)則性來判斷視覺顯著性[1,13-14]。這些方法在圖像顯著性物體檢測(cè)問題上獲得了一定成效。然而,自然場(chǎng)景中顯著性區(qū)域和背景區(qū)域往往都具有很大的差異性,傳統(tǒng)的顯著性模型很難在復(fù)雜的自然圖像中獲得較好的檢測(cè)效果。圖1對(duì)傳統(tǒng)顯著性模型(包括CA[9]、FT[14]、GB[12]、IT[11]、MS[13]模型等)檢測(cè)效果進(jìn)行了對(duì)比??梢钥闯觯F(xiàn)有方法都受到了背景雜亂或?qū)ο笮螤钚畔G失的影響,在顯著性物體檢測(cè)中存在明顯缺陷:CA模型可以較好地檢測(cè)到顯著性區(qū)域的邊界,但對(duì)于顯著性物體的形狀信息則損失嚴(yán)重;FT模型除了檢測(cè)到圖像的顯著區(qū)域,還將部分復(fù)雜背景也誤檢為顯著物體;GB模型和IT模型未能將顯著物體與圖像背景進(jìn)行準(zhǔn)確區(qū)分,導(dǎo)致檢測(cè)結(jié)果出現(xiàn)明顯失真;MS模型在復(fù)雜背景下,也將部分背景圖案檢測(cè)為顯著性物體,降低了檢測(cè)準(zhǔn)確性??梢?,在較低的計(jì)算復(fù)雜度下實(shí)現(xiàn)圖像顯著性物體的精準(zhǔn)提取,具有重要的理論研究?jī)r(jià)值和應(yīng)用前景。
圖1 現(xiàn)有顯著性模型缺點(diǎn)圖示說明。 從左到右分別為: 原始圖像,通過CA、FT、GB、IT、 MS和本文模型獲得的顯著圖。
傳統(tǒng)的顯著性模型一般基于一個(gè)生物學(xué)研究結(jié)果,即人類視覺關(guān)注力會(huì)集中于圖像的中心區(qū)域[15]。因此,以往的模型往往通過計(jì)算圖像區(qū)域中心與四周區(qū)域的差異性來進(jìn)行顯著性物體檢測(cè)[10-15]。因此,當(dāng)實(shí)際圖像中顯著性物體偏離圖像中心時(shí),就可能造成與背景圖案的混淆,難以得到理想的檢測(cè)結(jié)果。與傳統(tǒng)的顯著性檢測(cè)模型不同,本文提出了一種基于背景原型對(duì)比度的自底向上顯著性模型。這里,“背景原型”指的是通過預(yù)分割算法[16]獲得的超像素圖像區(qū)域。顯著性建模的另一個(gè)重要問題是如何定量測(cè)量視覺顯著度。在本文的模型中,由于顯著區(qū)域與背景存在較大的外觀差異,因此可以通過計(jì)算與背景原型的顏色對(duì)比差異判斷顯著區(qū)域。圖1同時(shí)給出了本文模型獲得的顯著圖結(jié)果。如圖1所示,相對(duì)傳統(tǒng)顯著性模型的檢測(cè)結(jié)果,本文提出的模型可以更好地濾除雜亂背景,產(chǎn)生更穩(wěn)定、準(zhǔn)確的顯著圖。此外,該模型計(jì)算復(fù)雜度低,適合應(yīng)用于光學(xué)器件中。
顯著性物體檢測(cè)的關(guān)鍵問題是如何準(zhǔn)確區(qū)分背景區(qū)域和顯著性目標(biāo)。傳統(tǒng)的顯著性模型基于區(qū)域中心與四周的差異度計(jì)算,在顯著性物體偏離中心區(qū)域或背景圖案復(fù)雜時(shí)區(qū)分效果不佳,造成檢測(cè)精度降低。為了更精確地檢測(cè)目標(biāo)與背景,本文基于背景原型對(duì)比度建立顯著性模型:先分析圖像計(jì)算產(chǎn)生背景原型,再通過比較原始圖像與背景原型的特征信息比對(duì)確定顯著性目標(biāo)物體。由于鄰近區(qū)域的像素存在較大冗余性,基于像素分析背景原型計(jì)算量大并且欠缺必要性,因此本文基于超像素進(jìn)行背景原型圖的分析計(jì)算。同時(shí),由于背景原型與顯著目標(biāo)存在較大顏色差異,選擇顏色作為比對(duì)的特征信息。
基于背景原型對(duì)比度的顯著性物體檢測(cè)方法實(shí)施可以分為3個(gè)步驟:
1) 圖像分割,通過分割算法被分解成為一些同質(zhì)的超像素;
2) 選擇背景原型,參考在整幅圖像中的相對(duì)位置,遠(yuǎn)離圖像中心的區(qū)域被選擇為背景原型;
3) 顯著性度量,通過與背景模型的顏色對(duì)比來判斷出視覺顯著性區(qū)域。
圖2是對(duì)本文方法實(shí)施過程的例子。首先,對(duì)原始圖像(a)進(jìn)行超像素分割,得到超像素分割圖(b);再計(jì)算超像素位置值確定背景原型圖(c);最后,通過與背景模型的顏色對(duì)比得到顯著圖(d);(e)為對(duì)顯著物體人工標(biāo)注結(jié)果??梢钥闯?,基于背景原型對(duì)比度的顯著性物體檢測(cè)方法得到的顯著圖與人工標(biāo)注結(jié)果接近度高,效果理想。下面,對(duì)顯著性對(duì)象檢測(cè)模型進(jìn)行詳細(xì)分析說明。
(a)原始圖像; (b)超像素分割圖(超像素以白色邊界線區(qū)分); (c)視為背景的圖像邊緣區(qū)域; (d)顯著圖; (e) 人工標(biāo)注結(jié)果 圖2 方法過程概述
1.1 圖像分割
基于背景原型對(duì)比度的顯著性物體檢測(cè)方法第一步是對(duì)原始圖像進(jìn)行超像素分割。超像素分割將圖像分析過程由基于像素轉(zhuǎn)換為基于區(qū)域,可以顯著降低圖像分析復(fù)雜度,提升算法速度。本文使用文獻(xiàn)[16]中的方法把輸入圖像分割成超像素。這個(gè)分割算法有兩個(gè)重要參數(shù),即rgnSize和regularizer,分別表示分割圖像的超像素?cái)?shù)和空間規(guī)律的平衡表。使用超像素分割技術(shù)可以將相似區(qū)域融合起來的同時(shí)避免破壞目標(biāo)物體的邊界特性。由于顏色直方圖是一個(gè)魯棒的全局外觀特征描述子,因此本文選用顏色直方圖作為超像素的表示特征。為了保證感知精度,直方圖在CIELab顏色空間進(jìn)行計(jì)算。在此基礎(chǔ)上,第i個(gè)超像素Ri則可由一個(gè)K維顏色直方圖hi來描述,其中第k維分量記作hi(k)。
1.2 選擇背景原型
在超像素分割圖基礎(chǔ)上,選擇準(zhǔn)確的背景原型。根據(jù)文獻(xiàn)[15],在像素x到圖像中心c的歐式距離d(x,c)基礎(chǔ)上利用逆高斯分布計(jì)算生成一個(gè)預(yù)處理圖(即圖3的中間圖):
p(x)=1-exp{-d(x,c)/σ2}
(1)
(2)
θ一般取經(jīng)驗(yàn)值0.8??拷鼒D像邊界的區(qū)域往往會(huì)被優(yōu)先選擇,這樣處理有利于囊括不同特點(diǎn)的背景區(qū)域。
1.3 基于背景原型的顯著性度量
(3)
盡管顯著性區(qū)域有時(shí)也會(huì)具有多樣性(如圖2、圖3、圖4所示),但這些區(qū)域的顏色依然和背景原型有著較大區(qū)別。此外,背景區(qū)域常常與背景原型的有著類似的顏色分布。因此,Ri的顯著圖應(yīng)為所有背景原型的最小值:
(4)
圖3 背景原型的產(chǎn)生圖示
圖4 本文方法與已有方法的視覺效果對(duì)比。 從左到右分別為: 原始圖像、IT、GB、FT、CA、RC、MS、 本文方法和人工標(biāo)注的顯著圖
本節(jié)通過對(duì)比實(shí)驗(yàn)證明基于背景原型對(duì)比度的顯著性物體檢測(cè)方法的有效性。為了增強(qiáng)實(shí)驗(yàn)結(jié)果的說服力,本節(jié)實(shí)驗(yàn)均在文獻(xiàn)[13,17]給出的數(shù)據(jù)集上進(jìn)行,同時(shí)選擇以下六個(gè)具有代表性的顯著性模型作為比較的對(duì)象,即視覺關(guān)注測(cè)量模型(visual attention measure, IT[10])、基于圖的顯著性模型 (graph-based saliency, GB[11])、頻譜調(diào)諧顯著性模型(frequency-tuned saliency, FT[13])、上下文感知模型 (context-aware saliency, CA[8])、整體對(duì)比顯著性模型 (global-contrast saliency, RC[17])和中層視覺顯著性模型 (midlevel saliency, MS[12])。實(shí)驗(yàn)通過在相同數(shù)據(jù)集上運(yùn)行本方法及各對(duì)比方法獲得顯著圖,采集數(shù)據(jù)進(jìn)行定量性能對(duì)比分析及定性效果對(duì)比分析。
實(shí)驗(yàn)中本文方法進(jìn)行超像素分割的參數(shù)(rgnSize, regularizer)設(shè)為(30,1.0),每個(gè)顏色直方圖中的超像素為K = 60維的向量。對(duì)于IT[10],GB[11],F(xiàn)T[13]和RC[17]模型,本文通過實(shí)現(xiàn)其算法運(yùn)行獲得最終的顯著性圖,從而得到相關(guān)比較數(shù)據(jù),對(duì)于CA[8]和MS[12]模型,本文直接利用作者公布的顯著性圖做性能比較。
2.1 性能定量分析
實(shí)驗(yàn)對(duì)各個(gè)顯著性模型復(fù)雜度、準(zhǔn)確率、返回率和F-measure等性能參數(shù)進(jìn)行測(cè)量比較。
通過對(duì)在相同硬件平臺(tái)上,對(duì)相同圖像的算法運(yùn)行時(shí)間的比較,可以直觀反映出計(jì)算復(fù)雜度高低。表1是這幾種方法平均運(yùn)行時(shí)間的對(duì)比結(jié)果。
表1 平均運(yùn)行時(shí)間的對(duì)比
通過表1可以看出,F(xiàn)T模型平均運(yùn)行時(shí)間最短,復(fù)雜度最低;除了FT模型,本文方法平均運(yùn)行時(shí)間均少于其它方法,說明其為計(jì)算復(fù)雜度較低的模型之一。結(jié)合后面的效果對(duì)比實(shí)驗(yàn)結(jié)果,本文方法獲取的顯著圖明顯優(yōu)于FT模型,綜合而言,本文方法具備較低的復(fù)雜度,較高的計(jì)算效率。
本文采用文獻(xiàn)[13,17]中的方法對(duì)以上算法準(zhǔn)確率、返回率和F-measure等性能參數(shù)進(jìn)行量化比較,結(jié)果如圖5所示。實(shí)驗(yàn)中,歸一化顯著圖分割閾值變化范圍為0~255。圖5(a)為各顯著性模型精度-召回曲線??梢钥闯觯疚奶岢龅哪P托阅苊黠@優(yōu)于其它模型。本文方法中第一步對(duì)圖像進(jìn)行超像素分割是非常關(guān)鍵的,而分割參數(shù)對(duì)于分割結(jié)果乃至最終顯著物體檢測(cè)結(jié)果有較大影響。圖5(b)為采用不同分割參數(shù)獲得的結(jié)果,表明本文采用的參數(shù)設(shè)置是性能最佳的。在最佳分割參數(shù)下,本文對(duì)通過自適應(yīng)閥值得到的顯著圖進(jìn)行二元分割[13],然后計(jì)算準(zhǔn)確率和召回率性能,最后通過公式:
F=((1+β2)×P×R)/(β2×P+R)
(5)
圖5 MSRA 1000數(shù)據(jù)集的定量比較
計(jì)算F-measure,公式中P表示準(zhǔn)確率,R表示召回率,β2=0.3[13,17]。各模型方法計(jì)算的平均準(zhǔn)確率、返回率和F-measure等實(shí)驗(yàn)結(jié)果如圖5(c)所示??梢钥吹?,本文提出的方法無論在準(zhǔn)確率、返回率還是F-measure,均達(dá)到最好的性能。相比于其他方法,本文方法對(duì)返回率性能的提升效果最為顯著,這表明本文方法可以準(zhǔn)確地檢測(cè)出更多的顯著區(qū)域。
2.2 效果定性對(duì)比
通過對(duì)各種方法產(chǎn)生的顯著圖結(jié)果進(jìn)行二元分割后,可以對(duì)其視覺效果進(jìn)行直接對(duì)比,判斷方法的準(zhǔn)確度。圖5展示了用不同方法獲得的視覺顯著圖,以便進(jìn)行定性的效果比較。由圖中結(jié)果可以看出,本文的模型能夠產(chǎn)生高分辨率的顯著圖,是各個(gè)方法中最接近于人工標(biāo)注顯著圖的。相比之下,其他方法產(chǎn)生的顯著圖均存在明顯不足之處:有的方法提取的顯著對(duì)象形狀出現(xiàn)失真,如IT和GB;有的過分強(qiáng)調(diào)顯著對(duì)象的邊緣輪廓,如CA;有的在不適于從雜亂復(fù)雜的背景中難以達(dá)到滿意的效果,如FT、RC和MS。
定量性能對(duì)比及定性效果對(duì)比實(shí)驗(yàn)結(jié)果說明基于背景原型對(duì)比度的顯著性物體檢測(cè)方法在較低的計(jì)算復(fù)雜度下獲得了高效、準(zhǔn)確的顯著圖,具有較強(qiáng)的應(yīng)用價(jià)值。
本文在背景原型對(duì)比的基礎(chǔ)上提出了一個(gè)新的顯著性模型。實(shí)驗(yàn)結(jié)果表明,它在準(zhǔn)確率、召回率和F-measure等關(guān)鍵性能和直觀視覺效果上均優(yōu)于目前最先進(jìn)的顯著性模型。此外,本方法計(jì)算復(fù)雜度低,對(duì)硬件資源要求不高,非常適于移植到軟硬件資源有限的光學(xué)設(shè)備(如數(shù)碼相機(jī))上。
[1]Xu Y, Zhao Y, Jin C, et al.Salient target detection based on pseudo-wigner-ville distribution and renyi entropy[J].2010, 35:475-477.
[2]Gao C, Sang N, Huang R.Instance-based attention: where could humans look first when searching for an object instance[J].2012, 37:76-78.
[3]Vazquez E, Gevers T, Lucassen M, et al.Saliency of color image derivatives: a comparison between computational models and human perception[J]. J. Opt. Soc. Am.,2010:613-621.
[4]張永梅,吳 攀,李 煒. 一種圖像敏感對(duì)象的識(shí)別方法[J]. 計(jì)算機(jī)測(cè)量與控制,2014,22(7):2167-2169.
[5]Ko B, Nam J.Object-of-interest image segmentation based on human attention and semantic region clustering[J]. J. Opt. Soc. Am. ,2006,23:2462-2470 (2006).
[6]Kim W, Kim C.Saliency detection via textural contrast[J]. Opt. Lett. ,2012,37:1550-1552.
[7]Itti L, Gold C, Koch C.Visual attention and target detection in cluttered natural scenes[J]. Opt. Eng. 2001,40:1784-1793.
[8]Goferman S, Zelnik-Manor L, Tal A.Context aware saliency detection[J]. IEEE Trans. Pattern Anal. Machine Intell.,2012,34:1915-1926.
[9]Torralba A.Modeling global scene factors in attention[J].J.Opt.Soc.Am. ,20, 2003,20:1407-1418.
[10]Itti L, Koch C, Niebur E.A model of saliency- based visual attention for rapid scene analysis[J]. IEEE Trans. Pattern Anal. Machine Intell.,1998,20: 1254-1259.
[11] Harel, J,Koch C, Perona P.Graph-based visual saliency[D]. Proceedings of the Advances in Neural Information Processing Systems, MIT, 2006.
[12]Yu J, Tian J. Saliency detection using midlevel visual cues[J]. Opt.lett.,2012,37: 4994-4996.
[13]Achanta R, Hemami S, Estrada F, et al.Frequency-tuned salient region detection[A].Proceedings of the IEEE conference on Computer Vision and Pattern Recognition[C]. IEEE, 2009:1597-1604.
[14]Li C, Xue J, Tian Z, et al.Saliency detection based on biological plausibility of hyper- complex fourier spectrum contrast[J]. Opt. lett.,2012,37:3609-3611.
[15]Tatler B.The central fixation bias in scene viewing: Selecting an optimal viewing position independently of motor biases and image feature distributions[J]. J. of Vis.,2007, 7:1-17.
[16]Achanta R, Shaji A, Smith K,et al.Slic superpixels[R]. EPEL, Tech. Rep, 149300,2010.
[17]Cheng M, Zhang G, Mitra N,et al.Global contrast based salient region detection[A]. Proceedings of the IEEE conference on Computer Vision and Pattern Recognition[C].IEEE, 2011: 409- 416.
SaliencyDetectionviaBackgroundPrototypesContrast
Luo Chenhui1,Zhang Wei1,Shen Qiongxia2,Ye Bo1
(1.School of Computer Science and Information Engineering, Hubei University, Wuhan 430062, China;2.Service and CPE Business Unit, Fiberhome Telecommunication Technologies Co.Ltd., Wuhan 430073, China)
To overcome the disadvantages of existing saliency models in saliency detection, a novel object-based attention model is presented to predict visual saliency using the contrast against the background prototypes. Traditional saliency models mainly detect salient regions by comparing the differences between center and surround regions, which makes hard to get desired results in complex scenes for significant differences often appear both in salient and background regions in real images. Saliency detection via background prototypes contrast firstly over-segment the input image into perceptually homogeneous superpixels, and automatically identifies a series of regions far away from image center as background prototypes. The visual saliency is then accurately calculated using the color contrast with respect to the selected background prototypes. Promising experimental results demonstrate that the proposed model, which outperforms the compared state-of-the-art saliency models in average precision, recall, F-measure and visual effect, can better exclude the cluttered backgrounds, and thus produces more robust and accurate saliency maps. Moreover, due to its computational efficiency, our model is easy to be widely applied.
visual attention; background prototype; visual saliency
2017-06-19;
2017-07-07。
國(guó)家自然科學(xué)基金(61301144,61601175)。
羅辰輝(1991-),男,湖北黃岡人,研究生,主要從事圖像處理、物聯(lián)網(wǎng)、無線通信方向的研究。
張 偉(1979-),男,湖北武漢人,博士,講師,碩士研究生導(dǎo)師,主要從事圖像處理、無線通信方向的研究。
1671-4598(2017)10-0259-04
10.16526/j.cnki.11-4762/tp.2017.10.066
:TP391.413
A