• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)視覺(jué)詞袋模型的快速圖像檢索方法①

      2016-02-20 06:51:58張禎偉石朝俠
      關(guān)鍵詞:檢索聚類(lèi)向量

      張禎偉, 石朝俠

      (南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 南京 210094)

      改進(jìn)視覺(jué)詞袋模型的快速圖像檢索方法①

      張禎偉, 石朝俠

      (南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 南京 210094)

      視覺(jué)詞袋模型在基于內(nèi)容的圖像檢索中已經(jīng)得到了廣泛應(yīng)用, 傳統(tǒng)的視覺(jué)詞袋模型一般采用SIFT描述子進(jìn)行特征提取. 針對(duì)SIFT描述子的高復(fù)雜度、特征提取時(shí)間較長(zhǎng)的缺點(diǎn), 本文提出采用更加快速的二進(jìn)制特征描述子ORB來(lái)對(duì)圖像進(jìn)行特征提取, 建立視覺(jué)詞典, 用向量間的距離來(lái)比較圖像的相似性, 從而實(shí)現(xiàn)圖像的快速檢索. 實(shí)驗(yàn)結(jié)果表明, 本文提出的方法在保持較高魯棒性的同時(shí), 明顯高了圖像檢索的效率.

      視覺(jué)詞袋模型; 局部特征; ORB; 圖像檢索

      圖像檢索技術(shù)是機(jī)器視覺(jué)領(lǐng)域中關(guān)注對(duì)大規(guī)模數(shù)字圖像進(jìn)行檢索和匹配的研究分支. 它是圖像拼接、目標(biāo)跟蹤、運(yùn)動(dòng)分析、對(duì)象識(shí)別、視覺(jué)導(dǎo)航等研究方向的研究基礎(chǔ). 近些年伴隨著嵌入式系統(tǒng)處理能力及存儲(chǔ)容量的 快速提升, 智能終端、機(jī)器人等嵌入式系統(tǒng)對(duì)大數(shù)據(jù)量圖像檢索需求日益增加, 從海量數(shù)據(jù)中快速檢索和匹配到所需的信息已具有很大的研究?jī)r(jià)值.

      在基于內(nèi)容的圖像檢索中, 視覺(jué)詞袋模型(Bag of Visual Word, BoVW)[1]已經(jīng)成為一種比較常見(jiàn)的方法.詞袋模型(Bag of Words, BoW)最初應(yīng)用于文檔處理領(lǐng)域, 將文檔表示成順序無(wú)關(guān)的關(guān)鍵詞的組合, 通過(guò)統(tǒng)計(jì)文檔中關(guān)鍵詞出現(xiàn)的頻率來(lái)進(jìn)行匹配. 作為一種源自文本檢索的模型, 視覺(jué)詞袋模型近年來(lái)在計(jì)算機(jī)視覺(jué)研究領(lǐng)域表現(xiàn)出良好的適用性, 成為計(jì)算機(jī)視覺(jué)研究的通用模型. BoVW首先在視頻檢索的研究中被系統(tǒng)地闡述與應(yīng)用, 近幾年來(lái), 計(jì)算機(jī)視覺(jué)領(lǐng)域的研究者們成功地將該模型的思想移植到圖像處理領(lǐng)域, 通過(guò)對(duì)圖像進(jìn)行特征提取和描述, 得到大量特征進(jìn)行處理, 從而得到用來(lái)表示圖像的關(guān)鍵詞, 并在此基礎(chǔ)上構(gòu)建視覺(jué)詞典進(jìn)而圖像可以類(lèi)似于文本的表示方法即統(tǒng)計(jì)基本詞匯出現(xiàn)的頻數(shù), 將圖像表示成一個(gè)向量,利用該向量進(jìn)行圖像的檢索. 傳統(tǒng)的詞袋模型一般采用SIFT(Scale-Invariant Feature Transform)特征描述子[2], SIFT算法可以適應(yīng)圖像縮放、旋轉(zhuǎn)、平移等變化, 并且能克服噪聲光照變化的影響. 但是SIFT算法的計(jì)算量比較大, 無(wú)法滿(mǎn)足系統(tǒng)實(shí)時(shí)性的要求. 針對(duì)SIFT描述子的高復(fù)雜度問(wèn)題本文提出了采用更加快速的二進(jìn)制特征描述子ORB[3]來(lái)對(duì)圖像進(jìn)行特征抽取, 然后利用BoVW模型進(jìn)行建模, 將每一副圖像用一個(gè)二進(jìn)制串來(lái)表示, 進(jìn)行圖像的檢索. 實(shí)驗(yàn)表明, 該方法不僅保持了較高的圖像檢索準(zhǔn)確率, 而且大大提高了圖像的檢索速度.

      1 視覺(jué)詞袋模型

      BOW算法起源于基于語(yǔ)義的文本檢索算法, 是一種有效的基于語(yǔ)義特征提取和描述的識(shí)別算法. 該算法忽略文本的結(jié)構(gòu)信息和語(yǔ)法信息, 僅僅將其看做是若干個(gè)詞匯的集合, 文本內(nèi)的每個(gè)詞的出現(xiàn)都是獨(dú)立的, 提取其中的語(yǔ)義特征, 構(gòu)建單詞詞匯表, 根據(jù)每個(gè)文本與詞匯表的關(guān)系, 統(tǒng)計(jì)文本中相應(yīng)單詞的出現(xiàn)頻率, 形成一個(gè)詞典維度大小的單詞直方圖, 經(jīng)過(guò)這樣文本到向量運(yùn)算問(wèn)題的轉(zhuǎn)化, 最后實(shí)現(xiàn)文本檢索.將對(duì)文本處理的詞袋模型過(guò)渡到圖像處理領(lǐng)域, 便形成了視覺(jué)詞袋模型.

      1.1 算法流程

      其實(shí)現(xiàn)過(guò)程大致分為四個(gè)步驟: 首先提取圖像中的特征描述子; 然后通過(guò)聚類(lèi)算法將訓(xùn)練圖片得到特征描述子進(jìn)行相似點(diǎn)聚類(lèi), 每個(gè)聚類(lèi)中心代表一個(gè)視覺(jué)單詞; 將圖像的局部視覺(jué)特征映射到視覺(jué)單詞表并用一個(gè)特征向量表示, 特征向量的每一維對(duì)應(yīng)一個(gè)視覺(jué)單詞的權(quán)重之和. 最后利用圖像生成的向量進(jìn)行圖像檢索. 算法流程如圖1所示.

      圖1 視覺(jué)詞袋模型流程

      根據(jù)圖1, 應(yīng)用詞袋模型進(jìn)行圖像檢索的具體實(shí)現(xiàn)過(guò)程可以描述如下:

      (1) 特征提取和描述.

      視覺(jué)詞袋模型往往選取圖像底層的SIFT特征, 該特征具有旋轉(zhuǎn)、尺度、平移等不變性, 同時(shí)對(duì)仿射變換, 噪聲存在一定的穩(wěn)定性. SIFT特征計(jì)算主要分為圖像特征點(diǎn)的選取和圖像特征區(qū)域的描述兩個(gè)部分.圖像特征點(diǎn)的選取步驟如下: 首先對(duì)圖像建立一個(gè)圖像金字塔模型, 然后對(duì)圖像在相鄰尺度空間上做差分,選取尺度空間中的極值點(diǎn), 最后將極值點(diǎn)周?chē)囊欢ǚ秶膮^(qū)域作為特征區(qū)域.

      (2) 視覺(jué)詞典構(gòu)造.

      BOW算法通常采用k-means算法對(duì)提取的特征進(jìn)行聚類(lèi)生成視覺(jué)詞典. k-means算法是一種經(jīng)典的聚類(lèi)算法, 是典型的基于原型的目標(biāo)函數(shù)聚類(lèi)方法的代表, 它是數(shù)據(jù)點(diǎn)到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù), 利用函數(shù)求極值的方法得到迭代運(yùn)算的調(diào)整規(guī)則.

      視覺(jué)詞典構(gòu)造主要步驟如下:

      ① 給定待聚類(lèi)的圖像SIFT描述子數(shù)據(jù)集,隨機(jī)選取K 個(gè)對(duì)象作為初始聚類(lèi)中心.

      ② 求出SIFT描述子數(shù)據(jù)集中的每個(gè)數(shù)據(jù)與各個(gè)聚類(lèi)中心的距離, 按照最小化原則將數(shù)據(jù)點(diǎn)劃入最近鄰聚類(lèi)中心所在的類(lèi)簇.

      ③ 重新計(jì)算每個(gè)類(lèi)簇的中心.

      ④ 重復(fù)步驟2、3, 當(dāng)各個(gè)聚類(lèi)中心不再改變時(shí)算法結(jié)束.

      (3) 生成視覺(jué)直方圖

      該過(guò)程是將每幅圖像所有的SIFT特征描述子分配到視覺(jué)詞典的各個(gè)維度上, 生成各自的視覺(jué)單詞直方圖. 在分配的過(guò)程中, 采用最近鄰算法, 每幅圖像中的每個(gè)SIFT特征向量與哪一個(gè)視覺(jué)詞距離最近,就將該視覺(jué)詞對(duì)應(yīng)的維度高度加1, 直到將所有的SIFT描述子向量分配完為止, 經(jīng)過(guò)這一系列處理后,每一幅圖像都能用一個(gè)k維的視覺(jué)詞直方圖表示, 將所有圖像的視覺(jué)詞直方圖歸一化處理后就可以進(jìn)行下一步的.

      1.2 權(quán)值的計(jì)算

      在文本信息檢索中, TF-IDF[4]是一種常用的加權(quán)方案. TF-IDF的主要思想是: 如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高, 并且在其他文章中很少出現(xiàn), 則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi). TF表示詞條在文檔d中出現(xiàn)的頻率,如果一個(gè)詞條在一個(gè)類(lèi)的文檔中頻繁出現(xiàn), 則說(shuō)明該詞條能夠很好代表這個(gè)類(lèi)的文本的特征, 這樣的詞條應(yīng)該給它們賦予較高的權(quán)重, 并選來(lái)作為該類(lèi)文本的特征詞以區(qū)別與其它類(lèi)文檔.

      IDF的主要思想是: 如果包含單詞Fi的文檔越少,也就是ni越小, IDF越大, 則說(shuō)明單詞Fi具有很好的類(lèi)別區(qū)分能力. 假設(shè)訓(xùn)練集中的圖片總數(shù)為N,ni表示包含單詞Fi的圖片數(shù)目. 類(lèi)似于文本檢索當(dāng)中的逆文檔頻率idf, 定義為:

      即該單詞被賦予的權(quán)值, 它表明了該單詞對(duì)于區(qū)分不同圖像時(shí)作用的大小.

      2 基于ORB特征的視覺(jué)詞袋模型

      視覺(jué)詞袋模型通常選取圖像底層的SIFT特征, 該特征具有旋轉(zhuǎn)、尺度、平移等不變性, 同時(shí)對(duì)仿射變換, 噪聲存在一定的穩(wěn)定性. 為了進(jìn)一步提高算法實(shí)時(shí)性, 本文采用ORB算法進(jìn)行特征提取. ORB算子基于BRIEF算子提出, 是對(duì)BRIEF算子的改進(jìn). 文獻(xiàn)[3]指出, ORB算法的速度比SIFT 要快兩個(gè)數(shù)量級(jí), 同時(shí)在不考慮圖像尺度變化的情況下, 其匹配性能并不遜色于SIFT.

      2.1 圖像特征提取和描述

      構(gòu)建視覺(jué)詞匯表之前, 首先要從圖像中提取出具有代表性的全局特征或局部特征, 作為對(duì)該圖像的“描述”. 這些被提取的特征應(yīng)該具有較強(qiáng)的穩(wěn)定性,能夠抵抗光照、視角尺度等因素帶來(lái)的不利影響. BOW通常采用局部特征來(lái)生成視覺(jué)詞匯表的候選特征, 在圖像識(shí)別和物體匹配的過(guò)程中, 由于ORB描述子計(jì)算速度上的優(yōu)勢(shì), 本文采用ORB描述子來(lái)提取和描述圖像的特征點(diǎn).

      2.1.1 特征點(diǎn)提取

      ORB(oriented FAST and rotated BRIEF) 是基于FAST[5]特征檢測(cè)和BRIEF描述子[6]改良的. 該算法使用FAST角點(diǎn)檢測(cè)來(lái)提取特征點(diǎn), FAST算法的角點(diǎn)定義為在像素點(diǎn)周?chē)徲騼?nèi)有足夠多的像素點(diǎn)與該點(diǎn)處于不同的區(qū)域, 在灰度圖像中, 即為有足夠多的像素點(diǎn)的灰度值與該點(diǎn)灰度值差別夠大. 以候選特征D為中心, 比較中心點(diǎn)D的灰度值與以D點(diǎn)為中心的圓周上所有點(diǎn)灰度值之間的大小, 如果圓周上與D點(diǎn)灰度值相差足夠大的點(diǎn)個(gè)數(shù)超過(guò)一定數(shù)值, 則認(rèn)為候選點(diǎn)D為特征點(diǎn). FAST角點(diǎn)檢測(cè)僅僅比較灰度值大小, 具有計(jì)算簡(jiǎn)單、速度較快的優(yōu)點(diǎn), 但其檢測(cè)出的特征點(diǎn)既不具備尺度不變性也不具備旋轉(zhuǎn)不變性.

      FAST不提供角點(diǎn)的度量, 對(duì)邊緣的響應(yīng)較大, 因此ORB采用Harris角點(diǎn)度量的方法按照FAST特征點(diǎn)的Harris角點(diǎn)響應(yīng)值對(duì)FAST特征點(diǎn)進(jìn)行排序. 如需要提取N個(gè)特征點(diǎn), 首先將閾值設(shè)置的足夠大以得到更多的特征點(diǎn), 然后根據(jù)Harris響應(yīng)值排序, 最后選出響應(yīng)值最大的N個(gè)特征點(diǎn).

      由于FAST 特征點(diǎn)是不帶有方向性的, ORB的論文中提出了一種利用灰度質(zhì)心法來(lái)解決這個(gè)問(wèn)題, 灰度質(zhì)心法假設(shè)角點(diǎn)的灰度與質(zhì)心之間存在一個(gè)偏移,這個(gè)向量可以用于表示一個(gè)方向. 對(duì)于任意一個(gè)特征點(diǎn)O來(lái)說(shuō), 我們定義O的鄰域像素的矩為:

      其中I(x,y)為點(diǎn)(x,y)處的灰度值. 那么我們可以得到圖像的質(zhì)心為:

      為了提高方法的旋轉(zhuǎn)不變性, 需要確保x和y在半徑為r的圓形區(qū)域內(nèi), 即x,y∈[-r,r], r等于鄰域半徑.

      2.1.2 特征點(diǎn)描述

      ORB中使用BRIEF描述子對(duì)檢測(cè)到的特征點(diǎn)進(jìn)行描述, 并解決了BRIEF本身不具有旋轉(zhuǎn)不變性的首要缺陷. 在以關(guān)鍵點(diǎn)為中心的圖像塊內(nèi)比較采樣點(diǎn)對(duì)的灰度值, 得到一個(gè)n 位二進(jìn)制數(shù), 該n 位二進(jìn)制數(shù)即為關(guān)鍵點(diǎn)的特征描述子, n的典型值為256.

      ORB采用的是BRIEF描述子, 它的基本思想是是圖像特征點(diǎn)鄰域可以用相對(duì)少量的灰度對(duì)比來(lái)表達(dá),每個(gè)圖像塊由一系列二進(jìn)制測(cè)試構(gòu)成的位串來(lái)表示,其計(jì)算簡(jiǎn)單、快速. 考慮一個(gè)平滑的圖像塊p, 一個(gè)二進(jìn)制測(cè)試τ定義為:

      其中p(x)是圖像塊p在點(diǎn)x處的灰度值. 特征點(diǎn)被定義為一個(gè)由n個(gè)二進(jìn)制測(cè)試構(gòu)成的向量:

      BRIEF中圖像鄰域的準(zhǔn)則僅考慮單個(gè)像素, 所以對(duì)噪聲敏感. 為了解決這個(gè)缺陷, ORB中每個(gè)測(cè)試點(diǎn)采用的是31×31像素鄰域中的5×5子窗口, 其中子窗口的選擇服從高斯分布, 再采用積分圖像加速計(jì)算.

      ORB選擇了BRIEF作為特征描述方法, 但是BRIEF是沒(méi)有旋轉(zhuǎn)不變性的, 所以需要給BRIEF加上旋轉(zhuǎn)不變性, 把這種方法稱(chēng)為“Steered BREIF”. 對(duì)于任何一個(gè)特征點(diǎn)來(lái)說(shuō), 它的BRIEF描述子是一個(gè)長(zhǎng)度為n的二值碼串, 這個(gè)二值串是由特征點(diǎn)周?chē)鷑個(gè)點(diǎn)對(duì)(2n個(gè)點(diǎn))生成的, 將這n個(gè)點(diǎn)對(duì)(xi,yi)組成一個(gè)矩陣S

      使用鄰域方向θ和對(duì)應(yīng)的旋轉(zhuǎn)矩陣Rθ, 構(gòu)建S的一個(gè)校正版本Sθ

      其中

      此時(shí)Steered BRIEF描述子變?yōu)?

      ORB根據(jù)式(8)中求得的方向參數(shù)提取BRIEF描述子. 但是由于環(huán)境的因素和噪聲的引入, 特征點(diǎn)方向會(huì)發(fā)生變化, 隨機(jī)像素塊對(duì)的相關(guān)性會(huì)比較大, 從而降低描述子的判別性. ORB采取貪心算法尋找相關(guān)性較低的隨機(jī)像素塊對(duì), 一般選取256個(gè)相關(guān)性最低像素塊對(duì), 構(gòu)成一個(gè)256bit的特征描述子.

      由于生成的特征點(diǎn)描述子為二進(jìn)制碼串形式, 因此使用Hamming距離對(duì)特征點(diǎn)匹配較為簡(jiǎn)單. 計(jì)算機(jī)中計(jì)算漢明距離可以簡(jiǎn)單地通過(guò)異或進(jìn)行計(jì)算. 漢明距離計(jì)算效率非常高.

      假設(shè)上節(jié)得到ORB特征256bit二進(jìn)制描述子K1、K2兩個(gè)特征點(diǎn)的描述子分別為:

      通過(guò)漢明距離之間的異或之和表征兩個(gè)ORB 特征描述子的相似程度, 用D(K1,K2)表示:D(K1,K2)越小代表相似程度越高, 反之相似程度低.

      2.2 生成視覺(jué)單詞

      在提取到圖像的ORB描述子之后, 需要進(jìn)行視覺(jué)詞典的構(gòu)建. 該過(guò)程通常分為兩步來(lái)完成. 首先將代表圖像局部特征的描述子轉(zhuǎn)換為視覺(jué)詞, 一個(gè)視覺(jué)單詞可以看作圖像中相似的特征點(diǎn)的集中代表, 該過(guò)程是通過(guò)聚類(lèi)算法實(shí)現(xiàn)的. 最終得到的聚類(lèi)中心就是我們所期望的視覺(jué)單詞, 聚類(lèi)中心的個(gè)數(shù)就是視覺(jué)詞典的大小. 根據(jù)聚類(lèi)的視覺(jué)單詞來(lái)建立每張圖像的視覺(jué)詞直方圖, 該過(guò)程稱(chēng)為映射.

      視覺(jué)詞袋模型中單詞數(shù)目的選取出現(xiàn)在特征描述的量化過(guò)程中, 常見(jiàn)的量化方法是k-means聚類(lèi), 詞匯數(shù)目即對(duì)應(yīng)的聚類(lèi)數(shù)目. 但是由于ORB描述子產(chǎn)生的是二進(jìn)制描述向量, 無(wú)法直接采用傳統(tǒng)的基于歐氏距離的k-means方法進(jìn)行聚類(lèi), 因此, 本文采用Hamming距離計(jì)算各個(gè)特征之間的距離, 使用k-majority算法[7]來(lái)求二進(jìn)制描述向量的聚類(lèi)中心. 具體算法流程如下:

      假設(shè)從圖像中提取到的ORB特征描述子集合D.

      步驟1. 隨機(jī)生成k個(gè)二進(jìn)制聚類(lèi)中心記為集合C.

      步驟2. 計(jì)算D中各描述子到各個(gè)聚類(lèi)中心的距離, 并劃分到個(gè)類(lèi)中.

      步驟3. 重新計(jì)算各類(lèi)的聚類(lèi)中心.

      重復(fù)步驟2、3, 當(dāng)各個(gè)聚類(lèi)中心不再改變時(shí)算法結(jié)束.

      其中步驟3中聚類(lèi)中心的計(jì)算方法如下:

      假設(shè)某一具有n個(gè)特征描述子的集合D

      其聚類(lèi)中心為c=c1c2LcjLc256, 其中

      即對(duì)于集合中所有特征描述子的每一個(gè)bit, 統(tǒng)計(jì)所有特征的對(duì)應(yīng)bit上的0、1的數(shù)量, 并取高者作為該bit的值. 這樣得到的聚類(lèi)中心向量也是二進(jìn)制表示,在進(jìn)行距離計(jì)算時(shí)可以利用漢明距離進(jìn)行快速計(jì)算.

      通過(guò)聚類(lèi)最終得到的k個(gè)聚類(lèi)中心即為所求的視覺(jué)單詞. 圖像特征聚類(lèi)過(guò)程如圖2所示.

      圖2 圖像特征聚類(lèi)

      2.3 圖片的向量表示

      對(duì)于訓(xùn)練集中每一個(gè)圖像, 累計(jì)圖片中的特征在單詞表中的每一個(gè)單詞Fi(1≤i≤t)當(dāng)中出現(xiàn)的頻率mi, t為視覺(jué)單詞總數(shù). 由于在訓(xùn)練階段已得到該單詞的權(quán)值, 即, 同樣根據(jù)TF-IDF的原理, 計(jì)算出該圖像在單詞Fi維度上的值:

      最終, 每一副圖像dj都可以用關(guān)于單詞的權(quán)值向量表示:

      2.4 圖片間的相似度測(cè)量

      訓(xùn)練集中圖像dj=(w1,j,w2,j,L ,wt,j), 待查詢(xún)圖像也轉(zhuǎn)換為向量q=(w1,w2,L,wt)表示.

      定義訓(xùn)練圖像與查詢(xún)圖像之間的差異程度為:

      這里采用的是2-范數(shù). 比較查詢(xún)圖像與訓(xùn)練圖像之間的差異程度S(di,q),(1≤i≤N), 選取差異程度最小的前n個(gè)作為查詢(xún)結(jié)果返回.

      3 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證本文提出的方法的圖像檢索效果, 我們選取標(biāo)準(zhǔn)Corel庫(kù)中1000張圖片和Caltech101庫(kù)中部分圖片共2400多張圖片作為圖像檢索庫(kù), 圖像大小為384×256像素, 部分樣圖如圖3所示.

      圖3 部分訓(xùn)練集圖像

      待檢索圖像直接從圖像庫(kù)中選取, 隨機(jī)從圖像數(shù)據(jù)庫(kù)中選取不同類(lèi)別的圖像, 每次在查詢(xún)結(jié)果中將按相似度排序后前10幅圖像作為檢索結(jié)果. 檢索結(jié)果示例如圖4所示, 每行為一次檢索結(jié)果, 每行10幅圖像均為檢索結(jié)果, 由于待檢索圖像直接從圖像庫(kù)中選取,且檢索結(jié)果按相似度排序, 所以檢索結(jié)果中的第一幅圖像就是原待檢索圖像本身, 從左到右按圖片與待檢索圖像的相似度由高到低排序.

      圖4 圖像檢索結(jié)果示例

      首先對(duì)單個(gè)圖像分別進(jìn)行SIFT特征跟ORB特征提取, 每種特征分別提取300和500個(gè)特征點(diǎn), 由表可以看出, 在特征提取速度方面ORB算法的速度是明顯比SIFT快得多.

      表1 特征提取時(shí)間對(duì)比

      為了驗(yàn)證本文算法的檢索效果, 實(shí)驗(yàn)以查準(zhǔn)率作為評(píng)價(jià)標(biāo)準(zhǔn), 即檢索結(jié)果中用戶(hù)滿(mǎn)意的圖像數(shù)目與檢索結(jié)果返回中所有圖像數(shù)目之比. 同時(shí)為了準(zhǔn)確衡量本文算法的檢索效率, 分別使用不同數(shù)量的視覺(jué)單詞進(jìn)行圖像檢索實(shí)驗(yàn), 最后計(jì)算平均查準(zhǔn)率并計(jì)算平均檢索時(shí)間. 實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表2所示. 當(dāng)視覺(jué)單詞數(shù)量取值為400時(shí), 按類(lèi)圖像平均查準(zhǔn)率如表3所示.

      表2 圖像檢索實(shí)驗(yàn)結(jié)果

      表3 按類(lèi)別檢索結(jié)果統(tǒng)計(jì)

      由表2可以看出, 隨著視覺(jué)單詞數(shù)量的增加, 平均查準(zhǔn)率越來(lái)越高, 但是平均檢索時(shí)間也呈線(xiàn)性增長(zhǎng)趨勢(shì). 結(jié)合表1中的實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以看出, 僅僅是SIFT的特性提取階段的耗時(shí)已相當(dāng)于本文方法的平均檢索時(shí)間. 雖然圖像檢索的查準(zhǔn)率偏低, 但是檢索時(shí)間快, 能夠滿(mǎn)足系統(tǒng)實(shí)時(shí)性的要求.

      4 結(jié)語(yǔ)

      本文提出了一種使用ORB特征的視覺(jué)詞袋模型的快速圖像檢索的方法, 利用ORB特征替代SIFT對(duì)圖像提取局部特征后進(jìn)行聚類(lèi), 生成得到一個(gè)視覺(jué)單詞“字典”, 然后對(duì)于每幅圖像, 統(tǒng)計(jì)圖像特征中各個(gè)視覺(jué)詞匯出現(xiàn)的頻數(shù), 得到一個(gè)圖像的描述向量, 并對(duì)向量進(jìn)行歸一化處理, 用該一維向量來(lái)表示圖像,其維數(shù)為視覺(jué)單詞的數(shù)目. 進(jìn)行圖像檢索時(shí), 對(duì)待檢索圖像ORB特征, 經(jīng)過(guò)視覺(jué)詞袋的映射之后, 待檢索圖像也會(huì)用一個(gè)向量來(lái)表示, 通過(guò)計(jì)算該向量與圖像庫(kù)中的圖像向量的歐式距離, 求取距離最小的圖像,即是與查詢(xún)圖像最相似的結(jié)果.

      實(shí)驗(yàn)結(jié)果表明, 本文提出的方法在保持了傳統(tǒng)視覺(jué)詞袋模型算法的魯棒性的同時(shí), 由于采用了更加快速的二進(jìn)制特征ORB, 因此很大程度地縮短了圖像檢索時(shí)間, 提高了圖像檢索效率. 本文只是將ORB特征應(yīng)用到視覺(jué)詞袋模型中, 沒(méi)有考慮圖像的顏色特征,在未來(lái)的工作中可以與圖像的顏色特征相結(jié)合, 進(jìn)一步提高圖像檢索的準(zhǔn)確率.

      1 Sivic J. Video Google: A text retrieval approach to object matching in videos. Proc. of the International Conf. on Computer Vision. Nice, France. IEEE Press. 2003.

      2 Lowe D. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004: 91–110.

      3 Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF. IEEE International Conference on Computer Vision(ICCV), 2011. IEEE. 2011. 2564–2571.

      4 David L. Naive(Bayes) at forty: The independence assumption in information retrieval. European Conference on Machine Learning, 1998: 4–15.

      5 Rosten E, Drummond T. Machine learning for high-speed corner detection. Computer Vision-ECCV 2006. Springer Berlin Heidelberg, 2006. 430–443.

      6 Calonder M, Lepetit V, Strecha C, et al. Brief: Binary robust independent elementary features. Computer Vision-ECCV 2010, 2010: 778–792.

      7 Grana C, Borghesani D, Manfredi M, et al. A fast approach for integrating ORB descriptors in the bag of words model. IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2013: 866709–866709-8.

      8 Mansoori NS, Nejati M, Razzaghi P, et al. Bag of visual words approach for image retrieval using color information. 2013 21st Iranian Conference on Electrical Engineering (ICEE). IEEE. 2013. 1–6.

      9 黃超,劉利強(qiáng),周衛(wèi)東.改進(jìn)的二進(jìn)制特征圖像檢索算法.計(jì)算機(jī)工程與應(yīng)用,2015,14:23–27.

      10 霍華,趙剛.基于改進(jìn)視覺(jué)詞袋模型的圖像標(biāo)注方法.計(jì)算機(jī)工程,2012,22:276–278,282.

      11 Mansoori NS, Nejati M, Razzaghi P, et al. Bag of visual words approach for image retrieval using color information. 2013 21st Iranian Conference on Electrical Engineering (ICEE). IEEE. 2013. 1–6.

      12 董坤,王倪傳.基于視覺(jué)詞袋模型的人耳識(shí)別.計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(12):176–181.

      13 Zhu L, Jin H, Zheng R, et al. Weighting scheme for image retrieval based on bag-of-visual-words. Image Processing, IET, 2014, 8(9): 509–518.

      Fast Image Retrieval Method Using Improved Bag of Visual Words Model

      ZHANG Zhen-Wei, SHI Chao-Xia
      (School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

      Bag of visual words model based on content-based image retrieval has been widely used, traditional bag of visual words model generally uses the SIFT descriptors for feature extraction. In view of the high complexity of SIFT descriptors and the long time of feature extraction, this paper proposes to use a faster binary feature descriptor ORB for the image feature extraction, creating visual dictionary, using the distance between two vectors to compare the image similarity, so as to achieve fast image retrieval. Experimental results show that the method proposed in this paper can improve the efficiency of image retrieval obviously, while maintains a relatively high robustness.

      bag of visual words; local features; ORB; image retrieval

      國(guó)家自然科學(xué)基金(61371040)

      2016-03-14;收到修改稿時(shí)間:2016-04-14

      10.15888/j.cnki.csa.005464

      猜你喜歡
      檢索聚類(lèi)向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      2019年第4-6期便捷檢索目錄
      基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
      專(zhuān)利檢索中“語(yǔ)義”的表現(xiàn)
      向量垂直在解析幾何中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
      一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
      自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
      油尖旺区| 堆龙德庆县| 惠安县| 布拖县| 通河县| 通化县| 陇川县| 遂川县| 邹城市| 琼海市| 东莞市| 东平县| 黔西| 汉源县| 潼南县| 博客| 兴化市| 安化县| 绥中县| 宜黄县| 登封市| 盐边县| 周宁县| 斗六市| 新沂市| 盘山县| 措勤县| 县级市| 五华县| 津市市| 聊城市| 南溪县| 定日县| 谷城县| 安徽省| 甘洛县| 东山县| 建始县| 潍坊市| 交城县| 盘山县|