張朝鑫, 席 平
(北京航空航天大學(xué)機(jī)械工程及自動化學(xué)院,北京 100191)
圖像局部特征描述是圖像處理與計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)[1-3]。圖像局部特征描述是指用一定的方法描述圖像特征點(diǎn)周圍一片區(qū)域的特征信息。描述方法要使得相同特征或相同場景的描述盡可能的一致,而不同的特征或不同場景的描述差異性盡可能的大。近幾年,有很多圖像的特征描述方法被提出。這些方法主要可以分為三類:基于濾波的方法[4-5]、基于矩的方法[6-7]與基于像素分布的方法[8-9]。其中基于像素分布的方法被應(yīng)用較多,尤其是 SIFT[10]與形狀上下文[11]。Chen和Sun[6]認(rèn)為基于Zernike矩的描述子同樣具有很強(qiáng)的特征描述能力,甚至在一些條件下比SIFT還優(yōu)秀。但是Zernike矩也有一些缺點(diǎn),由于Zernike矩中存在階乘運(yùn)算,因此在計(jì)算Zernike矩變得耗時,達(dá)不到實(shí)時性需求,另外Zernike描述子使用較高階的矩,數(shù)字穩(wěn)定性較差。
本文提出一種基于多尺度的Gaussian-Hermite(GH)矩的特征描述方法。首先使用GH矩的旋轉(zhuǎn)不變矩,解決了相同場景的圖像因?yàn)樾D(zhuǎn)計(jì)算結(jié)果不一致性的問題。其次,由于GH矩中存在尺度因子,同時尺度因子的選擇并不影響旋轉(zhuǎn)不變矩的旋轉(zhuǎn)不變性,選用多個尺度因子進(jìn)行計(jì)算,提出多尺度的GH矩描述子。最后通過實(shí)例與現(xiàn)有的方法,包括 SIFT與Zernike,進(jìn)行了詳細(xì)的評估比較。比較結(jié)果表明,基于GH矩的描述子具有更強(qiáng)的特征表述能力。
給定圖像函數(shù)f(x,y),GH矩的定義:
其中,Φm,n(x, y ;σ)為GH矩的基函數(shù):
其中,m和n是非負(fù)整數(shù),Hm(x)和Hn(x)分別是m次和n次Hermite多項(xiàng)式。
圖1給出了GH矩前5階矩的基函數(shù)的灰度圖像。
圖1 GH矩的前5階矩的基函數(shù)
由定義可知,GH矩是由圖1中GH矩的基函數(shù)與圖像進(jìn)行卷積運(yùn)算得到。
GH 矩是定義在連續(xù)區(qū)間(-∞,∞)上的。GH矩中存在尺度因子σ,在計(jì)算矩之前應(yīng)先設(shè)定好大小。對于不同大小的圖像,為了更方便設(shè)定尺度因子,應(yīng)把圖像坐標(biāo)轉(zhuǎn)換到一個固定的區(qū)間里。因此,根據(jù)通常的使用習(xí)慣選擇區(qū)間[-1,1],即,對于一個定義在區(qū)間[0≤i ,j≤K-1]上的數(shù)據(jù)圖像I(i,j),圖像坐標(biāo)首先通過下面的公式進(jìn)行轉(zhuǎn)換:
那么,定義在圖像I(i, j)上m+n階的GH矩就可以通過以下公式計(jì)算:
所謂旋轉(zhuǎn)不變矩是指圖像旋轉(zhuǎn)任意一個角度后,計(jì)算得到的矩的值與旋轉(zhuǎn)之前是一致的。為了推導(dǎo)旋轉(zhuǎn)不變矩,應(yīng)把GH矩推廣到極坐標(biāo)下,定義Polar-Gaussian-Hermite(PGH)矩為[12]:
其中基函數(shù)定義為:
其中,Bp,q(r)是一組多項(xiàng)式,稱為Polar-Hermite多項(xiàng)式。具有以下遞推關(guān)系:
對角多項(xiàng)式的遞推關(guān)系:
PGH矩與GH矩有以下關(guān)系:
給定矩的階數(shù),由式(9)和式(10)可以推導(dǎo)了GH矩的旋轉(zhuǎn)不變矩的獨(dú)立完備集,如果出現(xiàn)復(fù)數(shù)矩,實(shí)數(shù)部分與虛數(shù)部分分開,各自組成旋轉(zhuǎn)不變矩。其中5階矩以下的不變矩共18個。以下給出2階與3階的旋轉(zhuǎn)不變矩的形式,共6個。
由式(4),GH 矩中有一個尺度因子σ,在計(jì)算之前應(yīng)設(shè)定好尺度因子的大小。尺度因子的選擇會不會影響旋轉(zhuǎn)不變矩的旋轉(zhuǎn)不變性呢?下面通過計(jì)算一對旋轉(zhuǎn)圖像的不變矩分析尺度因子與旋轉(zhuǎn)不變性的關(guān)系。
如圖2所示,為“大猩猩”原圖與其旋轉(zhuǎn)45°后的圖像。尺度因子大小以 0.01為單位從 0.03增加到1.43,分別計(jì)算兩幅圖像的前5階18個旋轉(zhuǎn)不變矩,得到的兩幅圖像旋轉(zhuǎn)不變矩的比值隨尺度因子的變化規(guī)律記錄在圖3中。
圖2 “大猩猩”原圖與旋轉(zhuǎn)45°后的圖像
圖3 不同尺度因子對18個旋轉(zhuǎn)不變矩的影響
從圖中可以看出,隨著尺度因子由小到大變化,兩幅圖像旋轉(zhuǎn)不變矩的比值基本穩(wěn)定在1左右,但是同時會出現(xiàn)波動,甚至在特定的尺度因子下會出現(xiàn)較大幅度的跳動。通過分析,出現(xiàn)波動現(xiàn)象是由于數(shù)字圖像是離散的所造成的誤差;而出現(xiàn)某個特定的尺度因子下較大范圍的跳動,是由于在計(jì)算不變矩過程中,多項(xiàng)式乘積的其中一項(xiàng)出現(xiàn)無限接近0值造成較大的位數(shù)損失。除了這些由計(jì)算機(jī)與離散化造成的誤差外,可以得出以下結(jié)論:尺度的大小不影響GH矩旋轉(zhuǎn)不變矩的旋轉(zhuǎn)不變性。
首先,與Zernike矩需進(jìn)行階乘運(yùn)算相比,GH矩計(jì)算相對簡單,能滿足實(shí)時性要求;其次,由上節(jié)分析,尺度因子選擇不影響GH矩旋轉(zhuǎn)不變矩的旋轉(zhuǎn)不變性,因此可以選擇低階矩,每個不變矩選擇多個度因子,來構(gòu)成描述子,解決高階矩相對噪聲不穩(wěn)定的問題;再次,GH矩是正交矩,具有很強(qiáng)的特征描述能力。基于這些優(yōu)點(diǎn),設(shè)計(jì)基于 GH矩的圖像局部特征描述子,稱為GHM描述子。
為了避免高階矩的數(shù)字穩(wěn)定性差,選擇5階矩以下的旋轉(zhuǎn)不變矩,共 18個,然后,對每一個不變矩選擇7個不同大小的尺度因子,那么一共可以組成18×7共128維向量的描述子。這就組成了基于GHM矩的描述子。
GHM描述子的具體構(gòu)造方法可以概括為:
(1)選擇7個尺度因子,分別為:σ=0.1,0.2,0.4,0.6,0.8,1.0,1.2;
(2)使用式(4)計(jì)算圖像前5階的GH矩;
(3)計(jì)算18個旋轉(zhuǎn)不變矩,由于每個旋轉(zhuǎn)不變矩有7個尺度因子,共得到128維的向量:
這128維向量V即為圖像的GHM描述子。
通過分析,GHM描述子具有以下優(yōu)點(diǎn):
(1)實(shí)現(xiàn)過程簡單,計(jì)算時間快;
(2)因?yàn)槭褂玫碗A矩,對噪聲相對不敏感;
(3)正交矩,描述能力強(qiáng)。
用GHM描述子計(jì)算得到特征向量之后,可以用歐式距離進(jìn)行特征點(diǎn)之間的比較。距離最小或小于一定的閾值,認(rèn)為是正確的匹配,即表示相同特征。歐式距離公式為:
本節(jié)將通過實(shí)例評估所提出的描述子與現(xiàn)有的描述子的特征表述能力。參與評估的描述子有:SIFT、基于Zernike的描述子ZM、復(fù)數(shù)矩(complex filter)、形狀上下文(shape context)。主要從以下幾個方面來評估:圖片的不同光學(xué)變化(模糊、光照、JPEG壓縮)與不同的幾何形變(旋轉(zhuǎn)、縮放、平移、視角變換)。如圖4,5種不同變換的圖像用于評估,圖像的來源是文獻(xiàn)[13]。評估之前,需要選擇一種合適的特征點(diǎn)檢測方法,先從圖像中檢測出相同的特征點(diǎn)與特征點(diǎn)周圍相關(guān)區(qū)域,從而再用 5種不同的描述子來計(jì)算特征向量。本實(shí)例選擇 MSER特征點(diǎn)檢測方法。
圖4 5種不同變換的圖像
我們用正確率-完整率(precision-recall,PR)曲線來評估最后的匹配效果。其中正確率是指正確的匹配個數(shù)與所有匹配個數(shù)的比值,那么對應(yīng)的錯誤率為:
完整率是指正確的匹配個數(shù)與所有應(yīng)該匹配的個數(shù),即:
如圖5所示,描述了PR曲線的產(chǎn)生過程。假設(shè)兩張圖像上分別提取M與N個特征點(diǎn),那么這兩幅圖像之間將有M×N個匹配對。在這些匹配對中,其中有一些是正確的匹配(圖中用圓表示),另一些是錯誤的匹配(圖中用方形表示),按匹配對之間的距離大小排列開來,即圖中的橫軸代表匹配對之間的距離,則有一部分區(qū)域是正確匹配對與錯誤匹配對重疊的區(qū)域。當(dāng)所設(shè)定的距離閾值Dt從 Dmin開始逐漸增大,正確的匹配對逐漸多起來,當(dāng)碰到錯誤匹配對后,錯誤率從0逐漸增大,當(dāng)距離閾值到達(dá)Dmax的時候,錯誤率趨近于1。注意到,錯誤率整體是遞增的,但在剛開始階段,錯誤率有可能降低。完整率是從0單調(diào)遞增的,當(dāng)距離閾值到達(dá)所有應(yīng)該匹配數(shù)后,完整率為1。
圖5 PR曲線產(chǎn)生過程
本實(shí)例對比了5種狀態(tài)下的GHM描述子的匹配效果。①模糊,圖像的模糊來自相機(jī)聚焦的不同,圖6(a)給出了圖4(a)圖像模糊情況下5種描述子的PR曲線,從圖可以看出,GHM的曲線比其他曲線要高,即匹配效果更好。②JPEG壓縮,圖6(b)給出了圖4(b)中在JPEG圖像壓縮后的5種描述子的PR曲線,從圖中可以看出,匹配效果最好的是ZM描述子,其次是GHM與復(fù)數(shù)矩。在JPEG壓縮的情況下,基于矩的方法普遍比其他兩種方法要優(yōu)秀。③光照變化,圖4(c)是兩張?jiān)诓煌庹諚l件下拍攝的圖片,圖6(c)給出了5種不同描述子的匹配效果,從圖中看來,SIFT,GHM,ZM 三種描述子表現(xiàn)基本相當(dāng)。④不同視角,圖4(d)是一對相同場景但是從不同角度拍攝的圖像,圖6(d)給出了5種描述子的PR曲線,從曲線可以看出,GHM描述子表現(xiàn)最為優(yōu)秀,錯誤率在0.2以下的完整率是最高的,而ZM表現(xiàn)非常一般。⑤旋轉(zhuǎn)與縮放,圖 4(e)是一對經(jīng)過旋轉(zhuǎn)并縮放的圖像,圖 6(e)是 5種描述子的匹配結(jié)果,從結(jié)果可以看出,GHM描述子依舊是表現(xiàn)最有優(yōu)秀,完整率始終都是處在最高的位置,其次是SIFT,而ZM表現(xiàn)一般。
從5種不同情況的圖像匹配結(jié)果可以看出,所提出的GHM描述子表現(xiàn)非常出色,在5種不同變換情況下匹配效果都處在前列,甚至在一些情況下還超越了SIFT描述子。實(shí)例結(jié)果體現(xiàn)了GHM 描述子的優(yōu)越性,具有非常強(qiáng)的特征描述能力。
本文詳細(xì)介紹了GH矩及其旋轉(zhuǎn)不變矩,提出了基于GH矩的旋轉(zhuǎn)不變矩的圖像局部特征描述方法。并且通過實(shí)例與現(xiàn)有的方法進(jìn)行詳細(xì)的比較,實(shí)例結(jié)果表明,基于GH矩的圖像特征描述方法與現(xiàn)有的方法相比具有更強(qiáng)的圖像特征表述能力。
圖6 不同圖像對匹配結(jié)果
[1] Yang Xin,Cheng Kuangting. Local difference binary for ultra-fast and distinctive feature description [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,36(1): 188-194.
[2] Miksik O,Mikolajczyk K. Evaluation of local detectors and descriptors for fast feature matching[C]//Recognition(ICPR). Pattern 2012 21st International Conference on Pattern Recognition (ICPR). Tsukuba,Japan,2012: 2681-2684.
[3] Mikolajczyk K,Schmid C. A performance evaluation of local descriptors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(10):1615-1630.
[4] Freeman W T,Adelson E H. The design and use of steerable filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1991,13(9):891-906.
[5] Schaffalitzky F,Zisserman A. Multi-view matching for unordered image sets,or “How do I organize my holiday snaps?”[J]. Computer Vision,2002,2350:414-431.
[6] Chen Zen,Sun Shukuo. A zernike moment phase-based descriptor for local image representation and matching [J].IEEE Transactions on Image Processing,2010,19(1):205-219.
[7] Papakostas G A,Koulouriotis D E,Karakasis E G,Tourassis V D. Moment-based local binary patterns: A novel descriptor for invariant pattern recognition applications [J]. Neurocomputing,2013,99:358-371.
[8] Bay H,Tuytelaars T,Van Gool L. Surf: Speeded up robust features [J]. Computer Vision,2006,3951:404-417.
[9] Van De Sande K E,Gevers T,Snoek C G. Evaluating color descriptors for object and scene recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9): 1582-1596.
[10] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision,2004,60(2): 91-110.
[11] Belongie S,Malik J,Puzicha J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(4): 509-522.
[12] 張朝鑫,席 平,胡畢富. Gaussian-Hermite矩旋轉(zhuǎn)不變矩的構(gòu)建[J].北京航空航天大學(xué)學(xué)報(bào),2014,40(9): 1000-1005.
[13] http://www.robots.ox.ac.uk/-vgg/research/affine/,2013-12-1.