于乃昭,姚志均,楊 波
(船舶重工集團(tuán)公司723所,揚(yáng)州 225001)
人類在觀測(cè)一副圖像時(shí),通過視覺注意機(jī)制能夠很容易地注意到感興趣的目標(biāo)或圖像中的重要部分。若能將這種機(jī)制引入到計(jì)算機(jī)視覺領(lǐng)域中,首先找出顯著性區(qū)域,然后將計(jì)算資源優(yōu)先分配給這些區(qū)域,就能顯著提高現(xiàn)有圖像處理和模式識(shí)別等的工作效率和性能。提取出來(lái)的顯著性圖像可以廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,如圖像分割[1]、圖像壓縮[2]、目標(biāo)識(shí)別[3]、內(nèi)容感知、圖像編輯[4]、圖像檢索[5]等。
顯著性檢測(cè)方法大致可分為3類:基于生物學(xué)的方法、純計(jì)算的方法和結(jié)合這2種思想的方法。第1類方法的典型代表是Itti等人[6]于1998年提出的一種基于生物學(xué)的視覺注意模型,它提取圖像的梯度、顏色、方向等特征,用高斯差(DOG)計(jì)算中心-周圍差值得到各特征所對(duì)應(yīng)的顯著圖,最后線性組合得到最終的顯著圖。受Itti模型的啟發(fā),F(xiàn)rintrop等人[7]提出了一種新的方法,他們用均方濾波器計(jì)算中心-周圍差值,并用積分圖像加快計(jì)算速度。純計(jì)算的顯著性檢測(cè)方法有:Ma和Zhang[8]用中心-周圍特征距離估計(jì)顯著性;Gao和Vasconcelos[9]通過最大化中心和周圍的特征分布之間的互信息來(lái)求得圖像的顯著性;Hou和Zhang[10]提出了一種基于頻域的顯著性檢測(cè)方法——頻域殘余譜(SR)方法。第3類方法是結(jié)合生物學(xué)模型和計(jì)算模型實(shí)現(xiàn)的。Harel等人[11]用Itti的方法生成特征圖,然后用基于圖論的方法執(zhí)行歸一化操作。
上述方法中有些方法得到顯著圖的分辨率比較低,如Itti的方法[6]得到的顯著圖是原始尺度的1/256,Hou和Zhang[10]方法得到的顯著圖為64×64像素。有些方法突出顯著目標(biāo)的邊緣,而不是均勻地顯示整個(gè)顯著區(qū)域,如Ma和Zhang的方法[8]和Hou和 Zhang的方法[10]。
針對(duì)上述這些問題,Achanta等人[12]提出了頻率調(diào)諧(FT)方法,該方法采用Lab顏色空間作為圖像特征,對(duì)于每個(gè)顏色通道,計(jì)算某個(gè)像素與整幅圖像的平均色差并取平方,然后將這3個(gè)值相加作為該像素的顯著性值。由于該方法不需要下采樣,故可以輸出跟原始圖像一樣大小的顯著圖;同時(shí)該方法保留了全部空間頻率信息,從而能夠提取整個(gè)顯著區(qū)域。
然而,由于Lab顏色空間的3個(gè)分量L、a、b的取值范圍不一樣,L的取值范圍為[0 100],而a、b的取值范圍為[-128 127],且這3個(gè)分量的變化不一致,一副圖像中的亮度變化往往比較大,而色度的變化不大,這樣很有可能導(dǎo)致基于這3個(gè)分量得到的顯著性值不在同一個(gè)數(shù)量級(jí),從而不能很好地體現(xiàn)出各個(gè)分量的作用。為此,本文提出一種改進(jìn)的頻率調(diào)諧(IFT)方法,與文獻(xiàn)[12]一樣采用Lab顏色空間作為圖像特征,然后得到3個(gè)顏色通道的顯著圖,最后加權(quán)得到最終的顯著圖。
在討論本文提出的方法之前,先介紹一下頻率調(diào)諧方法。設(shè)給定圖像I的尺寸為H×W,其中H為高度,W為寬度。
第1步,先對(duì)圖像做高斯平滑處理,以消除噪聲、因編碼引入的誤差及精細(xì)的紋理,得到一個(gè)新的圖像Ig,其計(jì)算公式如下:
式中:(i,j)為像素坐標(biāo);符號(hào)“*”表示卷積;G為高斯平滑濾波器,其尺度大小一般選3×3或5×5。
第2步,將圖像Ig從三原色(RGB)顏色空間轉(zhuǎn)換到Lab顏色空間,得到圖像的亮度特征L和顏色特征a、b。
第3步,計(jì)算每個(gè)特征所對(duì)應(yīng)的整幅圖像的均值:
第4步,對(duì)于每個(gè)像素,計(jì)算各特征下與整幅圖像均值之間的距離:
第5步,特征融合得到每個(gè)像素的最終顯著性值:
由公式(8)得到的值往往遠(yuǎn)大于255,故不能直接用于圖像顯示,一般會(huì)將它歸一化為[0 1]之間的實(shí)數(shù)或[0 255]之間的整數(shù)。
由于L、a、b3個(gè)分量的取值范圍和變化快慢不一樣,很有可能導(dǎo)致由公式(5)~(7)得到的各特征所對(duì)應(yīng)的顯著性值不在一個(gè)數(shù)量級(jí)上,從而抑制了值小的分量的作用。為此,本文提出了一種改進(jìn)的頻率調(diào)諧方法,改進(jìn)之處在于特征融合這一環(huán)節(jié)。文獻(xiàn)[12]是直接將不同特征的顯著性值線性相加得到最終的顯著性值,而本文提出的方法是先對(duì)各特征的顯著性值做歸一化處理,即:
在得到新的顯著性值之后,經(jīng)如下公式融合得到最終的顯著性值:
式中:ωL、ωa、ωb分別為3個(gè)特征所對(duì)應(yīng)的權(quán)重(本文的實(shí)驗(yàn)中取ωL=ωa=ωb=1/3)。
為了驗(yàn)證本文提出的顯著性檢測(cè)方法的有效性和性能,進(jìn)行了實(shí)驗(yàn)仿真。
第1個(gè)實(shí)驗(yàn)是以一個(gè)小尺寸的圖像塊作為目標(biāo),通過查看L、a、b3個(gè)分量的值及所對(duì)應(yīng)的顯著性值來(lái)證明本文提出改進(jìn)方法的思路是正確的,同時(shí)也與文獻(xiàn)[12]比較最終得到的顯著圖性能。圖1中箭頭所指方框(大小為16×11)是感興趣的目標(biāo)圖像,經(jīng)顏色空間轉(zhuǎn)換之后L、a、b3個(gè)分量的值分別如圖2(a)、(c)、(e)所示,由公式(5)~(7)計(jì)算得到的3個(gè)分量所對(duì)應(yīng)的顯著性值分別如圖2(b)、(d)、(f)所示。
從圖2可以看出,亮度的變化比顏色特征變化大;3個(gè)特征所對(duì)應(yīng)的顯著性值不在一個(gè)數(shù)量級(jí),其中亮度特征L的顯著性值的最大值為3 948,而顏色特征a、b的顯著性值的最大值分別為163、758。
圖1 箭頭所指方框?yàn)楦信d趣目標(biāo)
圖2 目標(biāo)圖像L、a、b 3個(gè)分量的值及對(duì)應(yīng)的顯著性值
這樣,在特征融合時(shí),顏色特征很容易被亮度特征抑制,從而不能發(fā)揮顏色特征所特有的功能。圖3(a)和(b)分別是文獻(xiàn)[12]和本文方法得到的顯著圖,像素的亮度越亮,顯著性值越大,表明該像素越顯著。文獻(xiàn)[12]的結(jié)果表明人的黑色帽子和褲子是顯著性目標(biāo),本文方法的結(jié)果表明人的綠色上衣是顯著目標(biāo)。而事實(shí)上,當(dāng)人們觀測(cè)這幅圖像時(shí),圖中的人物肯定是人們關(guān)注的對(duì)象,但相比于黑色帽子和褲子,更多的注意力會(huì)放在綠色上衣上面,這也就說(shuō)明本文提出的方法要好于文獻(xiàn)[12]。
圖3 文獻(xiàn)[12]和本文方法得到的顯著圖
第2個(gè)實(shí)驗(yàn)是從文獻(xiàn)[12]的數(shù)據(jù)庫(kù)(共有1 000幅圖像)中選擇了5幅不同類型的圖像,然后比較Hou和Zhang的頻域殘余譜方法、文獻(xiàn)[12]的頻率調(diào)諧法及本文提出的方法這3種顯著性檢測(cè)方法的性能。實(shí)驗(yàn)結(jié)果如圖4所示。對(duì)于頻域殘余譜方法,由于它是在64×64像素這樣的尺度上實(shí)現(xiàn)的,為了方便比較,本文通過插值法將它拉伸到跟原始圖像一樣大小。由圖4(b)可以看出,頻域殘余譜方法突出目標(biāo)邊緣部分,能夠檢測(cè)小目標(biāo)物體;頻率調(diào)諧法能夠檢測(cè)大尺度的目標(biāo),且目標(biāo)整體比較均勻,但由于它可能抑制了某些顏色分量的作用,從而不能充分檢測(cè)出顯著性區(qū)域;而本文方法既繼承了頻率調(diào)諧法的優(yōu)點(diǎn),同時(shí)又充分利用了各顏色分量的作用,以至于取得很好的檢測(cè)結(jié)果。
本文分析了頻率調(diào)諧顯著性檢測(cè)方法的不足,并對(duì)它做了相應(yīng)的改進(jìn):先將每個(gè)特征所得到的顯著圖進(jìn)行歸一化處理,然后再用加權(quán)平均融合得到最終的顯著圖。由于改進(jìn)的方法充分利用了各顏色分量的作用,因而取得了好于原始頻率調(diào)諧法的顯著性檢測(cè)結(jié)果。
[1] Han Junwei,Ngan King Ngi,Li Mingjing,et al.Unsupervised extraction of visual attention objects in color images[J].IEEE Transactions on Circuit and System on Video Technology,2006,16(1):141-145.
[2] Christopoulos Charilaos,Skodras Athanassios,Ebrahimi Touradj.The JPEG2000still image coding system:an overview [J].IEEE Transaction on Consumer Electronics,2000,46(4):1103-1127.
[3] Rutishauser Ueli,Walther Dirk,Koch Christof,et al.Is bottom-up attention useful for object recognition?[A].Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition[C].Pasadena,USA,2004:37-44.
[4] Wu Huisi,Wang Yushuen,F(xiàn)eng Kunchuan,et al.Resizing by symmetry-summarization[J].ACM Transaction on Graphics,2010,29(6):1-9.
[5] Chen Tao,Cheng Mingming,Tan Ping,et al.Sketch2photo:Internet image montage [J].ACM Transaction on Graphics,2009,28(5):1-10.
[6] Itti Laurent,Koch Christof,Niebur Ernst.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[7] Frintrop Simone,Klodt Maria,Rome Erich.A real-time visual attention system using integral images[A].Proceedings of The 5th International Conference on Computer Vision Systems[C].Bielefeld,Germany,2007.
[8] Ma Yufei,Zhang Hongjiang.Contrast-based image attention analysis by using fuzzy growing[A].Proceedings of ACM International Conference on Multimedia[C].New York,USA,2003:374-381.
[9] Gao Dashan,Vasconcelos Nuno.Bottom-up saliency is a discriminant process[A].Proceedings of The IEEE International Conference on Computer Vision[C].San Diego,USA,2007:1-6.
[10]Hou Xiaodi,Zhang Liqing.Saliency detection:a spectral residual approach[A].Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition[C].Shanghai,China,2007:1-8.
[11]Harel Jonathan,Koch Christof,Perona Pietro.Graphbased visual saliency[A].Proceedings of The Advances in Neural Information Processing Systems 19[C].Vancouver,Canada,2007:545-552.
[12]Achanta Radhakrishna,Estrada Sheila,Wils Francisco,et al.Frequency-tuned salient region detection[A].Proceedings of The IEEE International Conference on Computer Vision and Pattern Recognition[C].Lausanne,Switzerland,2009:1597-1604.