基于視覺顯著度及金字塔模型的圖像分類

2015-06-15 15:42:40華驊

數(shù)字技術(shù)與應(yīng)用 2015年3期

關(guān)鍵詞：圖像分類

華驊

摘要：傳統(tǒng)詞袋模型僅僅是將圖像表示成視覺單詞的直方圖，并沒有考慮到物體的形狀信息，也沒有考慮到視覺特征的空間信息。因此將金字塔模型引入到詞袋模型中，建立金字塔詞袋模型，將金字塔詞袋模型與金字塔直方圖模型相結(jié)合，兩種信息相互補(bǔ)充，共同來(lái)來(lái)表征圖像；在分類器設(shè)計(jì)方面采用SVM進(jìn)行分類。通過在 Caltech 101數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)，驗(yàn)證了本文方法的有效性，實(shí)驗(yàn)結(jié)果表明，該方法能夠大幅度提高圖像分類的性能。

關(guān)鍵詞：詞袋模型視覺詞典圖像分類金字塔梯度直方圖

中圖分類號(hào)：TP391.41 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2015）03-0000-00

1引言

近年來(lái)，圖像的數(shù)量激增和圖像識(shí)別、檢索和分類問題帶來(lái)了巨大的挑戰(zhàn)。如何獲取用戶信息需求和加工精度在龐大的數(shù)據(jù)，在這一領(lǐng)域的最緊迫的問題。詞袋模型最初是應(yīng)用于文件處理，文件組合成一個(gè)關(guān)鍵字序列獨(dú)立，通過統(tǒng)計(jì)關(guān)鍵字出現(xiàn)在文檔頻率匹配。近年來(lái)，在計(jì)算機(jī)視覺領(lǐng)域的研究人員成功地移植模型的思想對(duì)圖像處理領(lǐng)域，詞袋模型（BoW，bag of words）的圖像庫(kù)看到書面文檔庫(kù)，將圖像作為一個(gè)文件。圖像的特征提取，使用“視覺語(yǔ)言”，它生成的視覺詞典，對(duì)每個(gè)圖像發(fā)生的頻度統(tǒng)計(jì)，完成詞袋的圖像描述。

袋模型忽略視覺詞之間的空間分布信息，使得作為二維數(shù)據(jù)的圖像丟失了大量空間信息，因此本文將金字塔模型引入到詞袋模型中，形成金字塔詞袋模型，利用金字塔詞袋模型表示圖像。同時(shí)結(jié)合金字塔梯度直方圖特征，構(gòu)成兩種具有互補(bǔ)特性的多級(jí)塔式結(jié)構(gòu)特征：PHOG 和 PBOW，并通過線性特征融合得到最終的特征表達(dá)。不僅考慮了圖像的形狀特征，這一特征，又考慮了圖像的局部分布的信息，一個(gè)塔的結(jié)構(gòu)和特征加權(quán)的融合可以更加完整，靈活的多分辨率圖像空間分解描述圖像特征信息，從而提高圖像分類的性能。此外，本文還結(jié)合視覺顯著性圖像分類，人類視覺的場(chǎng)景圖像分類，在視覺顯著性的視覺語(yǔ)言更吸引人們的注意力，因此影響更大的分類。在本文中，當(dāng)視覺詞匯直方圖表示圖像的圖像，根據(jù)每個(gè)視覺詞的權(quán)重的特征，然后根據(jù)圖像分類的加權(quán)直方圖。

2圖像的特征提取

圖像特征提取與描述是進(jìn)行圖像分類的第一步。為了表征圖像的局部特征信息和形狀信息，本文采用PHOW 方法和PHOG 方法提取圖像特征。這兩種方法都通過圖像空間多分辨率分解形成多級(jí)塔式結(jié)構(gòu)表示；前者提取與描述圖像形狀特征信息，后者提取并描述圖像局部特征信息，兩者形成具有互補(bǔ)特性的特征表示集合。

2.1金字塔詞袋模型

2.1.1圖像的詞袋表示

詞袋模型的基本原理是文件作為一個(gè)完整的詞袋，忽略了單詞和語(yǔ)法之間的秩序，字模型，每個(gè)字都是獨(dú)立的包，不依賴于其他的話。詞袋模型需要一個(gè)字典包含了所有有意義的詞的建立，每個(gè)文檔可以表示為字典中的單詞直方圖。詞袋模型引入到圖像檢索領(lǐng)域，圖像被視為一個(gè)文件，大量的和定量的圖像轉(zhuǎn)換成一個(gè)有限數(shù)量的視覺單詞的地方特色，每個(gè)圖像被表示為這些視覺詞匯直方圖。袋的圖像分類和描述語(yǔ)言模型中的應(yīng)用，包括特征提取和詞典生成特征量化，訓(xùn)練分類器。如圖1所示。

（1）特征提取和描述。特征提取和描述的主要任務(wù)是從圖像中提取的具有代表性的局部特征，圖像描述。傳統(tǒng)的方法主要是利用圖像的SIFT描述符。本文主要采用密集采樣模式，固定大小的窗口，按照遍歷窗口的整個(gè)圖像的步驟，覆蓋區(qū)域的一個(gè)描述符的SIFT描述符來(lái)描述區(qū)域使用的特點(diǎn)。

（2）詞典生成。視覺詞典生成的本質(zhì)是適當(dāng)?shù)膭澐终麄€(gè)特征空間。將下降到特征向量的范圍在區(qū)間為相同的視覺詞同樣可以表達(dá)。主要采用k-均值聚類SIFT特征分為若干類，每類視覺單詞。所有的視覺詞形視覺詞典，視覺詞典的大小是視覺單詞的數(shù)量。

（3）訓(xùn)練分類器。支持向量機(jī)是較常用且實(shí)現(xiàn)較為簡(jiǎn)單的分類器之一。其核心思想通過在特征空間中找最優(yōu)分類超平面，從而對(duì)空間中的不同特征進(jìn)行分類。SVM求解最優(yōu)超平面問題可以等價(jià)于求解如下方程

（1）

約束條件為：，，任意的。其中為與超平面的法向量，為懲罰因子，為松弛向量。本文主要采用SVM進(jìn)行分類，選用徑向基核函數(shù)。2.1.2金字塔詞袋模型

傳統(tǒng)的詞袋模型忽略了圖像的空間位置特征，不利于圖像空間結(jié)構(gòu)特征的提取。在Grauman等人的金字塔匹配（Pyramid Match Kernel ，PMK）模型基礎(chǔ)之上， Lazebnik等人提出了空間金字塔匹配（Spatial Pyramid Matching， SPM）模型，該模型首先對(duì)局部特征量化，然后按不同的分辨率將圖像切分，并將每個(gè)圖像塊上獲得BOW特征并加權(quán)求和。

空間金字塔模型以種不同的分辨率對(duì)圖像進(jìn)行均勻分割，在第0層，圖像不被切分，其特征等價(jià)傳統(tǒng)的BOW。在第1層，圖像被切分為4塊，在每塊上獲取特征。在第層，圖像被切分為個(gè)塊，不同層上的特征被加上不同的權(quán)重。

2.2金字塔梯度直方圖模型

2.2.1HOG模型

梯度直方圖（Histogram of Orientated Gradients，HOG）描述圖像的形狀信息是一種有效的方法。通過提取局部區(qū)域的邊緣或HOG梯度特征的分布，可以在物體邊緣的局部區(qū)域的一個(gè)很好的表征或梯度結(jié)構(gòu)，和目標(biāo)的形狀特征。

具體方法是：（1）的圖像分割成小的連通區(qū)域，稱為細(xì)胞。（2）在一個(gè)單元格或集合的每個(gè)像素的邊緣梯度方向直方圖。（3）圖像的直方圖結(jié)合形成一個(gè)特征向量。

HOG特征是在一個(gè)密集的網(wǎng)格均勻間隔的電池單元的計(jì)算，考慮到圖像的空間分布，但沒有考慮到不同空間尺度的圖像，以分工分類性能的影響。

2.2.2金字塔梯度直方圖模型

面向綜合考慮圖像的空間分布的梯度直方圖，是描述圖像的形狀信息的一種有效方法，但沒有考慮到不同空間尺度的圖像分割的分類性能的影響。梯度方向直方圖（金字塔金字塔直方圖面向梯度，PHOG）[8 ]描述形成特征向量，表示在空間中的局部形狀的圖像對(duì)象的布局。利用空間四叉樹分解成圖像的多分辨率表示，通過連接從低分辨率高分辨率多梯度方向直方圖來(lái)描述圖像。= 3系列的一系列假設(shè)，（= 0，1，2），梯度的方向分為8段，PHOG描述符是由3個(gè)梯度方向直方圖特征向量序列的形成。= 0是不是空間劃分，整個(gè)圖像為1元生豬，其尺寸為8；當(dāng)= 1圖像四二叉樹分類，將圖像劃分成4個(gè)矩形元生豬，8 x 4 = 32的尺寸；當(dāng)= 2圖像分解成16個(gè)矩形元生豬，尺寸為8 * 16 = 128，直方圖的最終形式是= 0，1，2，生豬直方圖序列，尺寸為8 + 32 + 128 = 168。利用直方圖的圖像的“能量”規(guī)范的特征向量，可以進(jìn)一步消除光照變化的影響。PHOG示意圖如圖2所示。

2.3 Itti視覺顯著度模型

Itti根據(jù)人眼視覺系統(tǒng)特性，對(duì)圖像進(jìn)行非均勻采樣，利用感受野特性形成、顏色、亮度、方向的關(guān)注圖，最后歸一化合并為顯著圖，算法流程如圖3所示。

模型中提取的特征包括，亮度、顏色和方向信息。其中亮度特征：，

，，分別表示輸入圖像的紅、綠、藍(lán)分量。顏色特征：定義、、、

4個(gè)寬調(diào)諧的顏色通道作為顏色特征，紅色、綠色、藍(lán) 色、黃色。方向特征： Gabor小波在， 4個(gè)方向上的分量。各特征的關(guān)注圖是通過圖像區(qū)域中心和周邊的高斯差分DOG模型來(lái)模擬 “中心-外周”機(jī)制得到的，這種差分計(jì)算用符號(hào)“ ”表示，公式如下：

（2）

其中，，分別表示中心和周邊的尺度因子。

亮度關(guān)注圖：

顏色關(guān)注圖：

方向關(guān)注圖：

其中，、分別表示紅綠色差和藍(lán)黃色差，表示表示方向特征。

4基于視覺顯著度及金字塔模型的圖像分類

令為原始圖像的顯著圖，對(duì)圖像進(jìn)行詞袋模型表示時(shí)，首先將圖像中的局部顯著特征量化為距離其最近的視覺單詞，并為這個(gè)視覺單詞進(jìn)行加權(quán)，權(quán)值如式（1）所示。

（3）

其中為局部顯著特征在視覺顯著圖中的值。參數(shù) 為設(shè)定參數(shù)。對(duì)圖像進(jìn)行直方圖統(tǒng)計(jì)師，根據(jù)該局部特征對(duì)應(yīng)位置的視覺顯著度對(duì)其進(jìn)行加權(quán)，更加符合人眼進(jìn)行分類時(shí)原理。

5本文算法流程

訓(xùn)練過程：

（1）提取訓(xùn)練樣本，采用稠密采樣的方式提取圖片的SIFT特征。

（2）對(duì)上一步提取出的所有SIFT特征，采用K-means方式進(jìn)行聚類，得到若干個(gè)聚

類中心矢量，即為視覺單詞。

（3）對(duì)每一幅訓(xùn)練圖中計(jì)算視覺顯著圖，并對(duì)每一幅圖像中的SIFT特征進(jìn)行量化，

然后根據(jù)視覺顯著度計(jì)算每幅圖的金字塔視覺單詞加權(quán)直方圖，然后用直方圖表示訓(xùn)練圖像。對(duì)每一幅圖像計(jì)算邊緣幅值圖，并根據(jù)視覺顯著度計(jì)算每幅圖的金字塔加權(quán)梯度直方圖。

（4）每幅圖像都可以表示成PHOG 和 PHOW 特征的集合；而 PHOG 和 PHOW又各

有種特征描述（ =0，1 … -1），。

（5）采用SVM對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練。單獨(dú)訓(xùn)練每個(gè)類的分類模型.每類的訓(xùn)練樣本包

括正負(fù)樣本。正樣本為包含這類對(duì)象的圖像視覺單詞直方圖，負(fù)樣本隨機(jī)選取不包含這類對(duì)象的圖像視覺單詞直方圖。

分類過程：（1）將測(cè)試圖像，采用稠密采樣的方式提取圖片的SIFT特征，計(jì)算邊緣幅

值圖。（2）對(duì)測(cè)試圖像計(jì)算視覺顯著圖，并對(duì)測(cè)試圖像的SIFT特征進(jìn)行量化，然后根據(jù)視覺顯著度計(jì)算計(jì)算測(cè)試圖像的視覺單詞加權(quán)直方圖；計(jì)算測(cè)試圖像的金字塔加權(quán)提督圖，將測(cè)試圖像同樣表示成PHOG 和 PHOW 特征的集合。（3）用訓(xùn)練好的SVM分類器進(jìn)行分類，得到分類結(jié)果。

6實(shí)驗(yàn)結(jié)果與分析

在這項(xiàng)研究中，們應(yīng)用了圖像分類和識(shí)別任務(wù)中較為經(jīng)典的數(shù)據(jù)庫(kù)Caltech101進(jìn)行實(shí)驗(yàn)驗(yàn)證。Caltech101數(shù)據(jù)庫(kù)具有巨大的圖像數(shù)據(jù)，圖像類型的特點(diǎn)，在對(duì)象類多樣性的變化，具有一定的代表性。圖像數(shù)據(jù)集分為101大類，共9146件物體的視覺形象，動(dòng)物，車輛，鮮花和其他類別的對(duì)象，具有明顯的形態(tài)變化，每一類圖像的數(shù)量包含從40到80，每個(gè)圖像的像素尺寸300x200左右，屬于中等分辨率。

隨機(jī)選擇的10類實(shí)驗(yàn)，然后選擇10，15，20，25幅圖像作為訓(xùn)練數(shù)據(jù)，其余的作為測(cè)試數(shù)據(jù)。軟量化，接近一個(gè)數(shù)n = 10。所有的訓(xùn)練圖像提取稠密SIFT描述符，然后使用這些描述符結(jié)構(gòu)長(zhǎng)度碼書500（使用K-means聚類，其中k = 1 000）， =3。所有程序都在windows XP操作系統(tǒng)，2 G 內(nèi)存，matlab 7.0 環(huán)境下運(yùn)行。

從表中可以看出，隨著每類訓(xùn)練樣本數(shù)的增加，本文算法與傳統(tǒng)詞袋算法的分類性能都得到了提高。從總體上看，本文算法的分類準(zhǔn)確率高于傳統(tǒng)詞袋算法。

此外，針對(duì)金字塔層數(shù)選擇進(jìn)行了分析，分別選取緊鄰個(gè)數(shù) =1，2，3，4進(jìn)行分析。試驗(yàn)結(jié)果表明，隨著層數(shù)的增長(zhǎng)而增長(zhǎng)。

7結(jié)語(yǔ)

本文金字塔模型引入到詞袋模型中，從而保持了局部特征的空間信息，同時(shí)與金字塔梯度直方圖模型相結(jié)合，兩種信息相互補(bǔ)充，共同來(lái)來(lái)表征圖像；此外本文受視覺顯著度的啟發(fā)，認(rèn)為處于視覺顯著區(qū)域的視覺單詞對(duì)分類的結(jié)果更具影響力，提出了一種基于視覺顯著度的量化方式，算法根據(jù)視覺顯著度并對(duì)量化結(jié)果進(jìn)行加權(quán)，求取圖像的金字塔直方圖。在分類器設(shè)計(jì)方面采用SVM進(jìn)行分類。通過在 Caltech 101數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)，驗(yàn)證了本文方法的有效性，實(shí)驗(yàn)結(jié)果表明，該方法能夠大幅度提高圖像分類的性能。實(shí)驗(yàn)證明，本文算法可以提高圖像分類的準(zhǔn)確性，且與現(xiàn)有方法相比具有優(yōu)越性。