摘 要:最近鄰搜索是一種有效策略的大規(guī)模圖像檢索,由卷積神經(jīng)網(wǎng)絡(CNN)的最新研究啟發(fā),我們提出了一個有效的深度學習框架生成哈希碼的方法。當數(shù)據(jù)標簽是可用的,hash碼可以利用標簽通過采用一個隱藏層代表的潛在概念學到的。實驗結(jié)果表明,對數(shù)據(jù)集Cifar10,我們的方法優(yōu)于其它幾種哈希算法。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡;哈希碼;圖像檢索
基金號:中央高?;究蒲袠I(yè)務費專項資金資助(supported by “the Fundamental Research Funds for the central universities)(2016-zy-065)
1 前言
近年來,每一天數(shù)十萬張圖片被上傳到互聯(lián)網(wǎng)上,根據(jù)不同用戶的要求尋找相關(guān)圖片非常困難。例如,基于內(nèi)容的圖像檢索類似于一個給定的查詢圖像找出相似的圖像?!跋嗨啤笨梢灾敢曈X上相似或語義上相似的。假設(shè)在數(shù)據(jù)庫中的圖像和查詢圖像表示成特征, 尋找相關(guān)圖片最簡單的方法就是數(shù)據(jù)庫中的圖像按照距離在特征空間的排序,并返回最接近的圖片。然而,對于一個數(shù)據(jù)庫,數(shù)以百萬計的圖像,這是現(xiàn)在相當普遍,即使是通過一個線性搜索將花費大量的時間和內(nèi)存。
2 基于卷積神經(jīng)網(wǎng)絡的圖像檢索的原理
本文的目標是學習圖像的緊湊的二進制代碼,特點如下:(a)在漢明空間,相似的圖像應該被編碼到相似的二進制碼,反之亦然;(b)二進制代碼可以計算高效。雖然許多散列方法已被提出,以獲得相似性保存的二進制代碼,他們遭受的限制,無論是手工制作的功能或線性映射。最近的CNN由于其強大的非線性模型功能成功完成了各種各樣計算機視覺領(lǐng)域的任務。為此,本文使用了卷積神經(jīng)網(wǎng)絡學習圖像的特征表示和緊湊的二進制代碼的同時,可以打破雙方的手工特征和線性模型的局限性。如圖1所示。
本文使用如圖一的網(wǎng)絡結(jié)構(gòu)。該網(wǎng)絡由3個卷積層和2個完全連接的層。在濾波器卷積層分別為32,32和64個大小5×5濾波器,和最大池化采用是3×3與步長為2。完全連接的第一層包含512個節(jié)點,第二輸出層有K(長度)節(jié)點。
?是RGB空間,本文的目標是學習一個映射從?到k位的二進制碼:F:?→{ 1,1 }K,這樣
相似的(無論是在視覺上類似的或語義上類似的)圖像被編碼到相似的二進制代碼。為了這個目的,相似的圖像的二進制碼應該是盡可能的相似,而不同的圖像的二進制碼在較遠的距離。則損失函數(shù)是設(shè)計學習的相似性保持二進制碼和利用分類的目標函數(shù)。然后通過對圖像的網(wǎng)絡輸出得到的二進制碼。
3 實驗和結(jié)果分析
為了驗證本文方法的有效性,故本文采用數(shù)據(jù)集Cifar-10,該數(shù)據(jù)集包含6萬張大小是32×32彩色圖像,共有10類,每類6000張圖像。根據(jù)文獻[9],我故隨機選取10000張查詢圖像,其中每類選擇1000張圖片和使用剩余的圖片作為訓練集。我們的方法比LSH,SH,ITQ,BRE, MLH, KSH的精度高,但是沒有文獻中方法的精度高,但相比較這些傳統(tǒng)方法,精度有明顯的提升。
圖顯示在不同的位數(shù)的漢明距離為2的圖像檢索結(jié)果;由上圖可以看出在漢明距離為2的情況下在不同的位數(shù)都是有提高的,在8位,16位,24位,32位提高的大概7%左右,但是位數(shù)越來越多時候,檢索精度越來越高了。
使用64位二進制碼獲得的精度。在64位時候,本文方法比KSH-CNN的方法無論在返回多少張圖片的情況下精度都高。雖然CNN的特征促進傳統(tǒng)方法的性能方法有明顯的差距,但我們的方法仍然優(yōu)于這些傳統(tǒng)的方法。
4 結(jié)論
在本文中,該方法有不錯的檢索性能,三個方面:第一、非線性特征的耦合學習和哈希提取指定任務圖像信息的編碼;第二,該化為減少了實數(shù)網(wǎng)絡之間的差異輸出;第三、使用單標簽來監(jiān)督,以及描述所需的漢明空間。在高效率實驗表明,該方法編碼的新的圖像比傳統(tǒng)的哈希的更快方法.由于我們目前的框架是比較普遍的,更復雜的網(wǎng)絡結(jié)構(gòu)也可以很容易地利用。此外,在這項工作中的“網(wǎng)絡集成”的初步研究已證明是一種很有前途的方式,是值得我們未來的調(diào)查,以進一步提高檢索性能。
參考文獻
[1]李向陽, 莊越挺, 潘云鶴. 基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J]. 計算機研究與發(fā)展, 2001, 38(03):344-354.
[2]王濤, 胡事民, 孫家廣. 基于顏色-空間特征的圖像檢索[J]. 軟件學報, 2002, 13(10):2031-2036.
[3]于淼, 朱瓊, 王國宇. 基于特征點匹配和哈希法的圖像檢索方法[J]. 網(wǎng)絡新媒體技術(shù), 2006, 27(04):397-400.
作者簡介
張杰(1992-),男,漢族,湖北省,武漢理工大學,碩士研究生,研究方向:統(tǒng)計學。