基于卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索

2018-01-26 23:20:58霍璐

計算機時代 2018年1期

霍璐

摘要：針對圖像檢索存在的問題，如圖像存儲量大，圖像提取特征與人類感知的語義鴻溝，圖像檢索時間長等，提出了一種新的深度哈希方法。通過卷積神經(jīng)網(wǎng)絡(luò)融合局部特征與全局特征進一步縮小了圖像的語義鴻溝，使得融合特征與編碼相互影響，相互調(diào)節(jié)。同時通過限定編碼位數(shù)，使得圖像存儲量大大減少，檢索時間縮短。實驗證明，該方法勝過之前提出的方法，使用卷積神經(jīng)網(wǎng)絡(luò)進行融合特征編碼是完全可行的。

關(guān)鍵詞：圖像檢索；卷積神經(jīng)網(wǎng)絡(luò)；圖像編碼；哈希算法

中圖分類號：TP319 文獻標志碼：A 文章編號：1006-8228（2018）01-63-03

Image retrieving with convolutional neural network

Huo Lu

（College of Computer Science， Hangzhou Dianzi University， Hangzhou， Zhejiang 310018， China）

Abstract： Aiming at the existing problems of image retrieval， such as large image storage， the semantic gap between the extracted feature of image and human perception， long time of image retrieval etc.， a new deep hashing method that learns the compact binary representation of images is proposed. The local features and global features are combined by convolutional neural network to narrow the image semantic gap and make the combined features interact with the coding. At the same time， by limiting the number of coded digits， the storage capacity of the image is greatly reduced and the retrieval time is shortened. Experiments show that the proposed method is better than the previous ones， and the convolution neural network is completely feasible for the fusion of feature coding.

Key words： image retrieval； convolutional neural network； image coding； hash method

0 引言

20世紀70年代時期，已經(jīng)出現(xiàn)圖像搜索的研究，主要是基于文本的圖像檢索技術(shù)，使用一些特定的詞來描述圖像的特征，用戶通過進入一層層的目錄找到自己想要的圖片。相似圖像搜索發(fā)展為對文本的相似語義搜索。圖像標簽每次都需要人工手動輸入，這可能會帶有一定的主觀性與不精確性。

到了20世紀90年代時期，開始出現(xiàn)了基于內(nèi)容的圖像檢索技術(shù)。用戶將圖片進行一定的預處理之后，通過提取一定的特征，與數(shù)據(jù)庫中已有的特征進行比較，最終得出相似圖像搜索結(jié)果。

以下綜述用到的一些主要方法。

利用顏色特征低層語義圖像特征表示為直方圖[1]，使用直方圖的圖像檢索技術(shù)是當紋理特征等低層語義圖像特征提取出來之后建立直方圖，將檢索圖像的直方圖與圖像庫中已有的直方圖進行比較。使用直方圖進行圖像檢索，具有比較直觀、計算量較小等優(yōu)點，其缺點在于，使用其進行分類準確度較低，對位置變化和旋轉(zhuǎn)不敏感。

SIFT（Scale-invariant feature transform）[2]，SURF（Speeded Up Robust Features）[3]等局部特征的提取，使用局部特征SIFT進行圖像檢索是建立一些特征向量，通過比較與圖像庫中特征向量的距離，找到匹配的圖像。SIFT的優(yōu)點是即使改變旋轉(zhuǎn)角度，亮度，和拍攝視角都可以實現(xiàn)不錯的檢測效果，但是SIFT的實時性不強，對邊緣平滑的圖像和模糊圖像檢測的特征點較少。

關(guān)聯(lián)反饋[4]，是用戶給出一張圖片，計算機通過默認的特征度量，給出最初的搜索結(jié)果，用戶對搜索結(jié)果進行評價，確定其相關(guān)還是不相關(guān)，之后再通過一些機器學習算法進行更新，重新生成搜索結(jié)果，用戶再對其進行評價，如此循環(huán)，直至用戶對相應的搜索結(jié)果滿意。其優(yōu)點在于，根據(jù)用戶的反饋，可以提高匹配的準確度。其缺點在于，算法效率不高且需要大量的反饋。

哈希算法在此處可分為數(shù)據(jù)依賴型哈希如SH[5]（Spectral Hashing）、ITQ[6]（iterative quantization）、HDML[7]（hamming distance metric learning）、STH[8]（Self-Taught Hashing）和數(shù)據(jù)獨立型哈希，如LSH[9]（Locality-Sensitive Hashing）和其變種。哈希算法對每個圖像進行哈希編碼，通過距離函數(shù)來比較圖像的相似度。其優(yōu)點在于搜索速度較快，所需的存儲空間較少，其缺點是輸出是一個二進制序列，丟失了部分特征信息，可能相似搜索的準確度會下降。

卷積神經(jīng)網(wǎng)絡(luò)所提取的深度特征和復雜的、需要進行很大調(diào)整的現(xiàn)有方法相比，有很大優(yōu)勢。同時，卷積神經(jīng)網(wǎng)絡(luò)中從不同層提取到的不同特征對檢索性能有著不同的影響。更加特別，從更深層提取到的特征能夠產(chǎn)生更加可信的相似度度量和更加豐富的圖像信息。從不同層結(jié)合的特征映射增加了輸入到比較靠后層之間的可變性并且提升了其檢索效率。endprint

1 相關(guān)內(nèi)容

早期的圖像特征提取幾乎均為人工手動提取，具有一定的主觀性。卷積神經(jīng)網(wǎng)絡(luò)可認為是一個自動的圖像特征提取器，隨著卷積層的加深，視覺詞匯的復雜度也逐步提升，并具有一定的輪廓特征。利用這些特征進行哈希編碼，使得語義相同的圖像具有相同或相似的哈希編碼序列，語義不同的圖像具有差異性較大的哈希編碼。且使用較短的哈希編碼來表示多個圖像的語義特征。通過一定的相似度度量函數(shù)來比較哈希編碼得出圖像是否相似。

傳統(tǒng)的監(jiān)督型哈希編碼一般包含兩個步驟：

①手工提取特征；

②進行hash學習。

一般這兩個步驟被分為兩個獨立且互補相關(guān)的過程，其編碼的好壞不能反向影響提取的特征，其特征有可能也不適用于進行哈希編碼，一般得到的編碼效果比較差。

基于此，我們在此處提出的改進是：將特征提取與哈希編碼相融合，使其盡可能的相互影響，相互制約。

2 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索

本文的網(wǎng)絡(luò)結(jié)構(gòu)是在caffenet的基礎(chǔ)上進行修改，對于其他網(wǎng)絡(luò)結(jié)構(gòu)也是使用同樣的原則進行修改。conv1，conv2，conv3，conv4，conv5為對應的卷積層，pool1，pool2為對應的pooling層，fc6，fc7，fc9，latent1，latent為對應的全連接層。Fc9層神經(jīng)元個數(shù)對應最后的分類個數(shù)。latent層和latent1層的神經(jīng)元數(shù)為對應的全局編碼個數(shù)和局部編碼個數(shù)。除latent，latent1層，其他層的激活函數(shù)均采用relu函數(shù)。局部特征取卷積神經(jīng)網(wǎng)絡(luò)較為中間的卷積層conv5。通過使用pooling和PCA我們實現(xiàn)了局部編碼。全局編碼我們在此處通過隱層來實現(xiàn)圖像的特征編碼，其中，全局特征編碼直接對應其分類loss，需要學習的hash function通過一個隱層在CNN的圖像表示和分類輸出之間。

ωg為f7層與latent層之間的權(quán)值，對于給定的圖像Ii，f7層對應的輸出值為，的計算如公式⑴所示。

⑴

其中，為K1維向量（對應全局編碼位數(shù)），為偏置值，σ（·）為激活函數(shù)。

對于給定的圖像Ii，conv5層對應輸出值為，（x，y）代表對應feature map中空間位置latent_1層的輸入的計算如公式⑵所示。

⑵

其中，之后經(jīng)過PCA降維至K2維向量。

特征融合層的輸出Oi如公式⑶所示。

⑶

其中，[，]表示兩向量進行拼接。

3 實驗部分

我們主要使用的數(shù)據(jù)集是cifar10，cifar10可以分為10類，其中包含了60，000張3232的彩色圖像，訓練圖像為50，000張，測試圖像為10，000張。

DeCAFNET證明了在imagenet中訓練好的卷積神經(jīng)網(wǎng)絡(luò)模型提取到的卷積特征應用到不同的數(shù)據(jù)集上同樣可以起到很好的分類效果，這種從大數(shù)據(jù)集上學習到的有效知識應用到小數(shù)據(jù)集上的方法稱之為遷移學習，因此，我們可以使用imagenet中訓練好的權(quán)重進行微調(diào)。

將我們的方法與傳統(tǒng)的哈希方法進行比較（LSH，ITQ，DSH，SpH和SH）. 由于它們均使用手工提取的特征去產(chǎn)生壓縮編碼。其檢索性能將會被提取的特征影響。然而，在我們的方法中，特征提取和編碼可以相互影響。

如圖1，圖2所示，通過與傳統(tǒng)哈希編碼進行對比，我們可以得出結(jié)論：本文提出的方法比傳統(tǒng)哈希編碼要好。我們可以看出我們的方法取得了很大的提高。

4 結(jié)束語

在本文中，我們提出了一種深度哈希模型。通過該模型，我們可以同時進行特征融合和哈希編碼。通過卷積神經(jīng)網(wǎng)絡(luò)，融合局部特征與全局特征，進一步縮小了圖像的語義鴻溝，其計算復雜度和運算所需的存儲量大大減小。同時通過限定編碼位數(shù)，使得圖像存儲量大大減少，檢索時間縮短。

通過實驗證明，我們的方法勝過之前提出的方法；同時也證明，使用卷積神經(jīng)網(wǎng)絡(luò)進行融合特征編碼是完全可行的。接下來，我們將繼續(xù)研究融合特征編碼各部分之間的影響，并考慮將我們的模型使用在其他的應用上。

參考文獻（References）：

[1] Deng Y， Manjunath B S， Kenney C， et al. An efficient color

representation for image retrieval[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society，2001.10（1）：140-147

[2] Lowe D G. Distinctive Image Features from

Scale-Invariant Keypoints[J].International Journal of Computer Vision，2004.60（2）：91-110

[3] Bay H， Tuytelaars T， Gool L V. SURF： Speeded Up Robust

Features[J]. Computer Vision & Image Understanding，2006.110（3）：404-417

[4] Rui Y， Huang T S， Ortega M， et al. Relevance feedback： a

power tool for interactive content-based image retrieval[J]. IEEE Transactions on Circuits & Systems for Video Technology，1998.3312（5）：644-655

[5] Weiss Y， Torralba A， Fergus R. Spectral Hashing[C].

Conference on Neural Information Processing Systems， Vancouver，British Columbia， Canada， December. DBLP，2008：1753-1760

[6] Gong Y， Lazebnik S. Iterative quantization： A procrustean

approach to learning binary codes[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2013：817-824

[7] Norouzi M， Fleet D J， Salakhutdinov R. Hamming Distance

Metric Learning[C]// Neural Information Processing Systems，2012.

[8] Zhang D， Wang J， Cai D， et al. Self-taught hashing for fast

similarity search[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM，2010：18-25

[9] Indyk P. Approximate nearest neighbors： towards

removing the curse of dimensionality[J].Theory of Computing，2000.11：604-613endprint