基于深度特征K-平均字典的場景識別*

2017-08-09 01:34:59余良琨黃立勤

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2017年13期

關(guān)鍵詞：圖塊字典選擇性

余良琨，黃立勤

(福州大學(xué) 物理與信息工程學(xué)院，福建福州 350000)

基于深度特征K-平均字典的場景識別*

余良琨，黃立勤

(福州大學(xué) 物理與信息工程學(xué)院，福建福州 350000)

計算機視覺中的中級詞袋模型廣泛采用滑動窗口作為圖片的分割方法。然而由滑動窗口產(chǎn)生的圖塊充滿隨機性，部分圖塊并沒有明顯的語義含義，會給后續(xù)的聚類帶來困難。針對這個問題，提出采用似物檢測取代滑動窗口。同時，根據(jù)詞袋模型字典設(shè)計中關(guān)于字典詞區(qū)別性和代表性的思路，對K-平均算法進行了改進，并在MIT-67室內(nèi)場景數(shù)據(jù)庫中進行了測試，該方法取得了良好的效果，最好的結(jié)果為76.31。

場景識別；K-平均算法；深度學(xué)習(xí)；詞袋模型；似物檢測

0 引言

場景分類早已作為計算機視覺中的一項特別工作有著自己獨到的處理。不同于一般的在圖片中檢測或識別一項典型的物體，諸如行人檢測和人臉識別，場景分類注重于理解高級的語義信息，如旅館、海灘。這些信息往往并不能由圖片中的某個物體或某塊場景單獨決定，而是由多個物體和多個圖塊的聯(lián)合關(guān)系來表征。應(yīng)用場景分類的知識能夠幫助解決很多計算機視覺其他領(lǐng)域的問題，包括語義標記[1]、事件監(jiān)測[2-3]，以及圖片信息獲取[4]。

對于場景識別而言，圖片的特征描述方式起著十分關(guān)鍵的作用。在早期的工作中[5]，圖片的描述是基于邊緣檢測或者是角點檢測的局部特征。然而，這類的局部特征描述往往缺乏必要的語義信息而且缺乏魯棒性。因此，這種特征無法良好地表達整幅圖片的信息；用于分類時，這樣的數(shù)據(jù)往往表達含糊。而且，采用這種特征描述時，所有的圖塊都具有相同的權(quán)重。然而事實上，在許多案例中，圖片中往往有許多的圖塊對最終的場景分類并沒有任何的貢獻，就比如室內(nèi)場景中的白墻圖塊，幾乎會出現(xiàn)在所有的室內(nèi)場景中。參考文獻[6]提出了使用物體檢測算法監(jiān)測到的物體作為場景特征來表征場景。這是一個十分有效的場景描述方式。然而，在實際中，有太多種類的物體需要手工標記并且去訓(xùn)練各自的物體檢測算法。這無疑會給人們帶來沉重的手工勞動。為了平衡這種塊描述的優(yōu)異特性與沉重手工標記之間的矛盾，研究者們提出了基于區(qū)域特征的描述[7]，然后，再將詞袋模型(BoW)應(yīng)用于各種歸一化后的區(qū)域特征[8-9]。這樣，給定的圖片就可以表示為這些視覺詞分布的統(tǒng)計，而且，視覺上相似的圖片也會有著相似的特征詞分布。盡管基于圖塊的BoW方法圖片特征描述相比于基于像素點的低級特征圖像描述要豐富得多，并且相較于使用單獨物體檢測作為場景特征的方法更有效，但是它仍然面臨一些圖塊對于場景最終分類無意義的問題。

從以上的回顧中不難發(fā)現(xiàn)，選擇合適的圖塊/區(qū)并用這些基本元素來構(gòu)建圖片的表達是非常重要的一環(huán)。同樣，對于BoW模型而言，還需要一個能夠良好構(gòu)建視覺字典的方法。Singh[10]提出好的視覺詞典應(yīng)該能夠在刻畫不同類時有足夠的區(qū)分度，刻畫相同類時又要能夠充分表達，又可稱之為圖塊的區(qū)別性和代表性。Juneja[11]提出了使用熵-排序的方法來選取有用的圖塊。最近，一些學(xué)者都將場景圖片用滑動窗口分割成多個圖塊[9,12]，然后將圖塊通過預(yù)先訓(xùn)練好的Caffe深度學(xué)習(xí)中的VGG-VD模型[13]，并在全連接層的第一層取出4 096維的非負特征再進行后續(xù)的字典構(gòu)建的處理。最后進行支持向量機(Support Vector Machine，SVM)分類。盡管這些方法提出了不同的圖塊或是視覺詞的聚類選取方式，但在最初的步驟中卻仍是依賴于一種毫無目的性的圖片分割方式。通過一定間隔相互疊加的滑動窗口或者是基于空間金字塔模型(Spatial Pyramid Model，SPM)的層級式的分割。本文提出采用似物檢測(Object Proposal)的方式進行場景圖片分割。似物檢測方法已經(jīng)廣泛地用于物體檢測、目標定位、目標跟蹤，可以用于發(fā)現(xiàn)潛在的物體區(qū)域，即能夠有效地發(fā)現(xiàn)可能是物體的圖塊，從而在最開始的圖片分割中就能夠準確地發(fā)現(xiàn)可以更好表達場景含義的區(qū)域。

本文通過結(jié)合新的圖片似物檢測的分割方式和基于物體描述的魯棒的深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolution Neural Networks，DCNN)特征來解決場景分類中的問題。這種結(jié)合可以提升最初場景圖片分割步驟中圖塊的語義信息的明確性。如果這個步驟中各個圖塊沒有明確的語義信息，無疑會給后續(xù)的字典聚類帶來很大的含糊性。受文獻[9]的啟發(fā)，每個似物檢測分割出來的圖片都采用DCNN進行特征提取，保證了高質(zhì)量的特征。同時根據(jù)Singh關(guān)于聚類區(qū)別性和代表性的思路，本文提出了K-平均法(K-Means)的聚類選取方式。因此本文的主要貢獻：(1)通過結(jié)合具有語義分割方式和特征表達豐富的DCNN圖塊描述方式，提出了一種新型的場景圖片的描述方式；(2)提出了一種同時具有同類代表性和類間區(qū)別性的K-Means聚類字典產(chǎn)生方式，生成了更加具有區(qū)別度的視覺字典。

1 相關(guān)工作

1.1 似物檢測

似物檢測是用基于邊界框或者是圖塊分割的方式生成與類別無關(guān)的潛在物體區(qū)域的方法。每個邊界框或是圖塊都包含著可能的物體對象。在最早的圖塊物體屬性的研究中，每個圖片框都是被一系列特征進行聯(lián)合表達的。這些特征會被送入訓(xùn)練好的，諸如樸素貝葉斯分類器[14]或是線性SVM分類器[15]來判別該區(qū)域是否是一個物體區(qū)域。為了更好地定位具有物體屬性的區(qū)域，Ristin[16]等人證明了隨機抽樣的局部區(qū)塊可以提供上下文信息以估計物體位置的先驗分布。還有另一種方式是通過合并輸入圖像經(jīng)過過分割產(chǎn)生的超像素。本文選用了似物檢測中的選擇性搜索(Selective Search)[17]方法來實現(xiàn)場景圖片分割。選擇性搜索結(jié)合了窮舉搜索和物體分割的特點。圖像本質(zhì)上是分層的，并且各個區(qū)域形成物體存在各種各樣的原因。因此，單個自下而上分組算法不能捕獲所有可能的物體位置。為了解決這個問題，選擇性搜索使用一組不同的完備且分層分組策略。這使得選擇性搜索能夠穩(wěn)定、魯棒，并且獨立于對象類進行似物檢測。

1.2 K-Means

K-Means是一種聚類算法。其目的是將一組向量分成圍繞公共均值向量聚集的K組。組內(nèi)的數(shù)據(jù)表達都可以近似為該組公共均值，因此聚類過程也就是尋找能夠最佳量化這些數(shù)據(jù)的建立字典或者是碼表的過程。

已知觀測集{x1,xn,…,xn}，其中每個觀測都是一個d維實向量，K-Means聚類要把這n個觀測劃分到k個集合中(k≤n)，使得組內(nèi)平方和(Within-Cluster Sum of Squares, WCSS)最小。換句話說，它的目標是找到使得下式滿足的聚類Si：

(1)

其中μi是Si中所有點的均值。

2 算法流程

本文算法中主要的3個部分是：似物檢測；K-Means聚類并選取生成字典；場景圖片表達。如圖1所示。

圖1 算法流程圖

2.1 似物檢測

不同于之前工作中采用的滑動窗口，本文采用了似物檢測中的選擇性搜索。由選擇性搜索產(chǎn)生的圖塊因為原方法中注重物體屬性的選取，而使其相比于滑動窗口在語義信息上的表達更加明確。采用選擇性搜索還帶來了另一個優(yōu)點，可以很明確地限制圖塊的數(shù)量，這樣無疑可以減少后續(xù)處理的復(fù)雜度。當使用滑動窗口時，因為給定的圖片的長寬比例不一，卻又有著相同的圖塊分割大小、步進，因此每個圖片可能產(chǎn)生不同數(shù)量的圖塊。例如，假定從給定圖片的短邊可以提取出5個圖塊，長邊按比例采樣，則可能產(chǎn)生5×6、5×7、5×8的圖塊數(shù)量。因此每個圖片的圖塊數(shù)根據(jù)圖片自身的長寬比例而不定。如果采用了選擇性搜索，則可以避免這個問題。選擇性搜索固定每個圖片產(chǎn)生的圖塊。這樣不但避免了后續(xù)處理的復(fù)雜性，而且保證了每幅圖片對于K-Means聚類時具有相同的權(quán)重。

2.2 K-Means字典生成

2.2.1 K-Means聚類

將選擇性搜索得到的圖塊，輸入caffe深度網(wǎng)絡(luò)的VGG-VD模型，該模型在ImageNet[18]進行了預(yù)訓(xùn)練并在ILSVRC-2014[19]上取得了極好的效果。接著在線性修正單元(Rectified Linear Unit，ReLU)的第六層fc6(全連接層的第一層)獲得非負4 096維度的深度特征，然后將這些特征進行K-Means聚類。

2.2.2 選取聚類結(jié)果生成字典

字典視覺詞希望能夠同時滿足兩個要求，即區(qū)別性和代表性。區(qū)別性能夠準確地分別不同類別。代表性又希望該詞有足夠的出現(xiàn)頻率。普通的K-Means聚類可以直接構(gòu)建字典，但是無法實現(xiàn)這兩個要求，因此要加入這個步驟構(gòu)建更加有效的視覺字典。

聚類的結(jié)果中也往往存在對各個類的偏向。即某個聚類結(jié)果中，大多數(shù)樣本都是來自同一個類中的圖塊。因此這個聚類中心點就具有與別的類中圖塊深度特征的區(qū)別性。同時，定義同一聚類結(jié)果中滿足一定的同一場景的個數(shù)要求的樣本量，才可以視為對該場景具有代表性的字典詞。先限制聚類的代表性，再考慮聚類的區(qū)別性，最后排序取出前X個作為各類的字典數(shù)。

2.3 場景圖片表達

在這個環(huán)節(jié)中，需考慮如何有效地進行圖片表達。給定單張場景圖片l，通過選擇性搜索產(chǎn)生G個圖塊和深度特征，將其表達為li={l1,l2,…,lG}，作為矩陣H。此時H的表達具有G行，4 096列。通過K-Means聚類生成T個聚類空間/詞，并且在聚類選擇環(huán)節(jié)每類選擇了最具有區(qū)別性和代表性的X個詞。字典最終可以表示為矩陣M的形式，具有X×Y行(X是每一類場景的字典數(shù)，Y是數(shù)據(jù)庫的場景數(shù))和4 096列。將原始表達矩陣H向字典空間M投射，其結(jié)果是最終表達矩陣K=H×MT。此時，矩陣K具有G行，X×Y列。為了最后分類的方便，這個環(huán)節(jié)還會在矩陣K的行上采用最大值池化(max pooling)的方式降低維度，因此最后的表達維度為X×Y。

3 實驗

在MIT Indoor-67[20]數(shù)據(jù)庫上測試算法。MIT Indoor-67包含了67類的室內(nèi)場景。其中一個顯著的特點是：獨特的物體往往會出現(xiàn)在特定的場景中。每類場景圖片都包含大致80張訓(xùn)練圖片和20張測試圖片。最終，MIT Indoor-67的平均分類準確率將作為算法評價標準。

給定一幅圖片后，將用選擇性搜索來獲取前36個最具有物體屬性的圖塊，然后將這些圖塊調(diào)整到224×224的尺寸大小來適應(yīng)使用VGG-VD模型的Caffe的輸入要求。之所以選擇36個圖塊是為了與大致相同數(shù)量的滑動窗口圖塊數(shù)的方法進行對比，同時測試了選擇性搜索產(chǎn)生32個圖塊的情形。在K-Means的聚類中生成1 000個聚類區(qū)域，并在此基礎(chǔ)上進行聚類結(jié)果的篩選。先甄選聚類區(qū)域的代表性，滿足每聚類區(qū)域平均個數(shù)兩倍以上的認定為具有代表性的區(qū)域。實際實驗中共有192 960個圖塊、1 000個聚類區(qū)域，即，如果聚類區(qū)域A中超過386個樣本來自B類場景圖片，則認定該聚類區(qū)域A具有B類的代表性。再對滿足代表性聚類區(qū)域的區(qū)別性進行排序，即按照各聚類區(qū)域中B類樣本所占比例進行排序。選取前X個聚類中心作為B類場景的字典。試驗中分別進行了每類20、40、60個字典詞的測試。以32個選擇性搜索圖塊+K-Means每類40字典為例。單一圖片最終表達的維度為40×67=2 680。最后，采用了一個5折的一對多的SVM分類器進行分類。

4 結(jié)論

表1為算法準確率的比較。從表1中不難發(fā)現(xiàn)，不同數(shù)量的選擇性搜索的效果均好于滑動窗口，36個選擇性搜索圖塊好于32個的。同時也可發(fā)現(xiàn)，采用了K-Means字典的與沒有采用字典的具有顯著差異。其中最好的結(jié)果出現(xiàn)在36個選擇性搜索窗口和每類40個K-Means字典組合中，其結(jié)果為76.31。

表1 算法準確率比較

注：前三行數(shù)據(jù)是將深度特征直接經(jīng)圖片表達，SVM分類得到。

因此，可以認為在場景識別中，選擇性搜索相比于滑動窗口更適用于場景圖片分割。同時具有代表性和區(qū)別性的K-Means字典能夠使得場景圖片的表達在線性空間中更加具有區(qū)分度。

[1] BOIX X, GONFAUS J M, VAN DE WEIJER J, et al. Harmony potentials [J]. International Journal of Computer Vision, 2012, 96(1): 83-102.

[2] MANDUCHI R, CASTANO A, TALUKDER A, et al. Obstacle detection and terrain classification for autonomous off-road navigation [J]. Autonomous Robots, 2005, 18(1): 81-102.

[3] Yao Bangpeng, Li Feifei. Modeling mutual context of object and human pose in human-object interaction activities[C]. Proceedings of the Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010: 17-24.

[4] BERRETTI S, BIMBO A D, VICARIO E. Efficient matching and indexing of graph models in content-based retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(10): 1089-1105.

[5] RUSSELL B C, FREEMAN W T, EFROS A A, et al. Using multiple segmentations to discover objects and their extent in image collections[C]. Proceedings of the Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006: 1605-1614.

[6] LI L J, SU H, XING E P, et al. Object bank: a high-level image representation for scene classification & semantic feature sparsification[C]. Proceedings of the Advances in Neural Information Processing Systems, 2010: 1378-1386.

[7] LI F F, PERONA P. A bayesian hierarchical model for learning natural scene categories[C]. Proceedings of the Computer Vision and Pattern Recognition, 2005 IEEE Computer Society Conference on, 2005: 524-531.

[8] FERNANDO B, FROMONT E, TUYTELAARS T. Mining mid-level features for image classification [J]. International Journal of Computer Vision, 2014, 108(3): 186-203.

[9] LI Y, LIU L, SHEN C, et al. Mid-level deep pattern mining[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 971-980.

[10] SINGH S, GUPTA A, EFROS A A. Unsupervised discovery of mid-level discriminative patches [M]. Computer Vision-ECCV 2012. Springer, 2012: 73-86.

[11] JUNEJA M, VEDALDI A, JAWAHAR C, et al. Blocks that shout: distinctive parts for scene classification[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013: 923-930.

[12] GONG Y, WANG L, GUO R, et al. Multi-scale orderless pooling of deep convolutional activation features[C]. Proceedings of the European Conference on Computer Vision, 2014: 392-407.

[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2004.

[14] ALEXE B, DESELAERS T, FERRARI V. What is an object?[C]. Proceedings of the Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010.

[15] CHENG M M, ZHANG Z, LIN W Y, et al. Bing: Binarized normed gradients for objectness estimation at 300 fps[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014.

[16] RISTIN M, GALL J, VAN GOOL L. Local context priors for object proposal generation[C]. Proceedings of the Asian Conference on Computer Vision, 2012.

[17] UIJLINGS J R, VAN DE SANDE K E, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-71.

[18] SHRIVASTAVA A, MALISIEWICZ T, GUPTA A, et al. Data-driven visual similarity for cross-domain image matching[C]. Proceedings of the ACM Transactions on Graphics (TOG), 2011.

[19] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[20] QUATTONI A, TORRALBA A. Recognizing indoor scenes[C]. Proceedings of the Computer Vision and Pattern Recognition, 2009 IEEE Conference on, 2009.

Scene classification based on deep feature K-Means dictionary

Yu Liangkun, Huang Liqin

(School of Physics and Information Engineering, Fuzhou University, Fuzhou 350000, China)

Sliding window is a very popular segmentation method for mid-level Bag-of-Word (BoW) model, which is used widely in scene recognition. However, the patches produced by sliding window is full of randomness, some of them do not have clear semantic information, that may bring difficulties to subsequent clustering. To deal with it, object proposal is adopted to replace sliding window. At the same time, based on the idea of discriminativeness and representativeness of dictionary of BoW, K-means is improved and tested in MIT-67 indoor scenes dataset. The method gets best result of 76.31.

scene classification; K-Means; deep learning; Bag-of-Word; object proposal

國家自然科學(xué)基金(61471124，61473090)

TP391.4

10.19358/j.issn.1674- 7720.2017.13.009

余良琨，黃立勤.基于深度特征K-平均字典的場景識別[J].微型機與應(yīng)用，2017,36(13)：26-28,33.

2017-02-09)

余良琨(1992-)，男，碩士研究生，主要研究方向：計算機視覺、場景分類。

黃立勤(1973-)，男，博士，教授，主要研究方向：圖像處理與通信、計算機網(wǎng)絡(luò)通信。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于深度特征K-平均字典的場景識別*

0 引言

1 相關(guān)工作

2 算法流程

3 實驗

4 結(jié)論