基于多特征非線性融合的草圖-圖像檢索方法

2022-07-06 14:40:08蘇亮亮

安徽建筑大學學報 2022年3期

蘇亮亮，李惠

（1.智能建筑與建筑節(jié)能安徽省重點實驗室，安徽合肥 230022；2.安徽省建設領域碳達峰碳中和戰(zhàn)略研究院，安徽合肥 230601；3.安徽建筑大學電子與信息工程學院，安徽合肥 230022）

近年來，隨著觸屏技術的蓬勃發(fā)展，手機、平板電腦等可觸屏電子設備逐漸成為人們生活中不可或缺的部分，人們可以用手繪草圖的形式在移動終端便捷地繪制出物體的外觀輪廓，于是基于手繪草圖的圖像檢索技術（Sketch-Based Image Retrieval，SBIR）[1]逐漸引起了學者們的注意，成為當前計算機視覺跨域檢索領域的研究熱點之一。由于自然圖像蘊含豐富的紋理信息和色彩信息，而手繪草圖僅包含簡單的線條信息，因此如何有效地縮小草圖與自然圖像之間的域間差異，是目前研究的難點問題。

早前應用于SBIR 領域的方法主要是基于顏色、形狀、紋理等視覺傳統(tǒng)手工特征，如Canny 邊緣檢測[2]、尺度不變特征變換（scale invariant feature transform，SIFT）[3]、方向梯度直方圖（histogram of oriented gradient，HOG）[4]特征、局部二值模式（local binary pattern，LBP）[5]和顏色直方圖[6]等，這些特征雖然在不同的應用場景下取得了不錯效果，但是受限于其反映圖像的特定方面信息，泛化性能較差。為了緩解該問題，部分學者將不同手工特征進行了融合，以此實現(xiàn)檢索性能的提升，例如Mehmood 等人將加速魯棒特征（speeded up robust features，SURF）與HOG 特征融合，提升了檢索的準確率和檢索效率[7]；郭元晨等人提出了一種基于空間注意力的邊緣圖融合模型，將自然圖像和對應的邊緣圖編碼到各自的特征空間，然后由空間注意力掩膜進行加權融合得到圖像向量表征，從而實現(xiàn)草圖-圖像的檢索[8]。然而手工特征存在的“語義鴻溝”問題仍然沒有得到很好的解決。近年來，隨著深度神經(jīng)網(wǎng)絡技術的快速發(fā)展，不少學者開始基于深度學習方法提取草圖、圖像的特征，典型深度學習網(wǎng)絡結構有LeNet[9]、AlexNet[10]、VGG[11]等，通過端到端的學習方式，其獲得的特征能夠有效緩解語義信息的不足，使得基于深度學習的方法逐漸成為獲取圖像特征的主流方法。

綜上所述，手繪草圖線條輪廓簡單、抽象，但缺乏顏色和紋理信息，而深度特征往往能夠獲得更加接近語義層面的信息，于是本文將采用一種非線性特征融合方法來綜合傳統(tǒng)手工特征與深度特征的優(yōu)勢，選取有代表性的、適合表達邊緣信息的HOG特征與深度特征進行融合，以此克服手繪草圖與自然圖像之間的域間差異。通過公開數(shù)據(jù)集上的實驗與對比分析，結果顯示本文提出的多特征融合方法進行草圖-圖像檢索是有效的。

1 相關工作

1.1 形狀特征

圖像特征主要分為顏色特征、紋理特征以及形狀特征。由于草圖是由簡單的線條構成，缺乏顏色和紋理信息，因此本文提取形狀特征HOG 作為草圖特征。HOG 特征最早應用于行人檢測，后來被廣泛應用于人臉檢測等領域。它通過計算圖像的梯度方向與大小，從而獲得關于梯度的統(tǒng)計描述。該算法忽略圖像中顏色信息的影響，具有光照不變性、平移不變性和旋轉不變性，適用于無色彩信息的草圖特征提取。如圖1 所示為自然圖像與其對應手繪草圖的HOG 特征。

圖1 自然圖像與其對應手繪草圖的梯度直方圖

HOG 特征獲取步驟如下：

（1）圖像灰度化。

（2）圖像歸一化。通常使用gamma 校正法，可以有效降低圖像局部的陰影和光照變化所造成的影響，以及抑制噪聲的干擾，歸一化計算公式如（1）所示。

其中，gamma 通常取值為0.5。

（3）計算圖像中每個像素的梯度。對每個像素的梯度大小和方向進行計算。計算公式如（2）和（3）所示。

其中，Gx（x，y）、Gy（x，y）分別表示水平方向梯度和垂直方向梯度。

（4）統(tǒng)計每個胞元（cell）的梯度方向直方圖。將檢測窗口（block）劃分為多個cell，每個cell 的360°梯度方向平均分成若干個方向塊（bin），對cell 內每個像素沿著梯度方向在直方圖上加權投影，計算出每個cell 的梯度方向直方圖。

（5）生成block 特征描述符。將若干個cell 合并成一個block，并將block 內所有cell 的梯度方向直方圖進行歸一化串聯(lián)處理，生成該block 的特征描述符。

（6）生成HOG 特征描述符。將目標圖像作為滑動窗在檢測窗口進行掃描，滑動步長為一個cell，則一個cell 的特征會出現(xiàn)在若干block 中。最后將檢測窗口所有block 特征描述符串聯(lián)處理得到該圖像的HOG 特征描述符。

1.2 深度特征

不同于手工特征需要層層設計，基于卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network，CNN）提取的深度特征[12]能夠根據(jù)特定的任務自動對手繪草圖與自然圖像分別進行高、中、低多層次的深度特征學習，并且網(wǎng)絡的深度和廣度可根據(jù)需要調整。典型CNN結構主要由輸入層、卷積層、池化層、激活層、全連接層及輸出層構成，其提取的深度特征可分為深度卷積特征和深度全局特征兩類。如圖2 所示，深度卷積特征提取自卷積層，傾向于圖像的細節(jié)與結構信息。深度全局特征從全連接層提取，以向量化形式呈現(xiàn)，便于后續(xù)相似度計算處理，同時其特征包含了更高層次的語義信息。因此，鑒于草圖-圖像檢索更傾向于語義層面對比，所以本文選取基于全連接層的深度全局特征作為草圖、圖像的特征表示。

圖2 深度特征提取示意圖

1.3 特征融合

當前，常見的特征融合方式有串聯(lián)融合和權重融合[13]。下面以兩個特征向量feature1=（x1，x2，…，xn）和feature2=（y1，y2，…，yn）為例進行詳細描述：

（1）串聯(lián)融合，就是將兩個不同的特征向量串聯(lián)起來，得到新的特征表示。如公式（4）所示：

（2）權重融合，就是將兩個不同的特征向量按照一定的比例進行融合，得到新的特征表示。如公式（5）所示：

其中，p1與p2分別表示兩個特征向量對應的權重系數(shù)，和為1。當兩個權重系數(shù)相等均為0.5 時，此時為均值融合，均值融合可以看成是權重融合的特例。

2 基于多特征非線性的特征融合

傳統(tǒng)手工特征具有明確的設計目的，能夠有效刻畫圖像特定方面的信息，并且計算速度快；而基于神經(jīng)網(wǎng)絡的深度特征具有更好的語義信息，對圖像形變和旋轉不敏感。于是結合兩類特征的優(yōu)勢，同時考慮到手繪草圖線條輪廓簡單與語義較抽象的特點，采用基于AlexNet 的深度特征與傳統(tǒng)手工特征HOG 作為草圖、圖像的特征表示，提出一種基于全連接非線性特征融合的草圖-圖像檢索方法。該方法的主要思想是將兩種不同圖像特征作為輸入，經(jīng)過全連接層進行非線性融合，得到最終的特征表示進行草圖檢索。如圖3 所示為全連接非線性融合網(wǎng)絡模型。

根據(jù)圖3，基于全連接非線性的特征融合主要包含以下部分：

圖3 全連接非線性融合網(wǎng)絡模型

（1）自然圖像草圖化

由于手繪草圖與自然圖像之間存在巨大差異，使得檢索任務難以實現(xiàn)，因此本文將數(shù)據(jù)集中自然圖像經(jīng)過Canny 邊緣提取，轉化為草圖形式，以此縮小草圖與自然圖像的域間差異。

（2）HOG 特征提取模塊

HOG 特征的提取涉及block 大小、cell 大小、bin 數(shù)目等參數(shù)，而這些參數(shù)決定著HOG 的效果，所以如何調整相關參數(shù)以獲得較優(yōu)的HOG 特征是需要考慮的。于是本文利用支持向量機（Support Vector Machine，SVM）分類器，即libsvm 默認參數(shù)，對降維后的HOG 特征進行分類。其中，降維采用經(jīng)典的主成分分析法（Principal Component Analysis，PCA）[14]，通過分類結果調整HOG 參數(shù)，最后經(jīng)過訓練獲得較好的分類準確率時停止，確定HOG 特征的相關參數(shù)。

（3）深度特征提取模塊

本文基于AlexNet 網(wǎng)絡提取深度特征，需要先對AlexNet 網(wǎng)絡進行訓練，在草圖化的數(shù)據(jù)集上進行多次迭代，使得網(wǎng)絡趨于收斂后，保存訓練過程中最優(yōu)的網(wǎng)絡參數(shù)。最后獲取倒數(shù)第2 個全連接層輸出的向量作為圖像的深度特征。

（4）全連接融合模塊

全連接融合模塊融合HOG 降維特征和深度特征，該模塊由若干全連接層組成，實現(xiàn)不同類型特征的融合。

3 實驗

3.1 數(shù)據(jù)集

實驗數(shù)據(jù)集選用草圖檢索領域常用的兩個公開數(shù) 據(jù) 集Flickr15k[4]與TU-Berlin[1]。其中Flickr15k 數(shù)據(jù)集由Hu 等人構建，是草圖檢索任務的常用數(shù)據(jù)集之一，包含33 個類別共10 244 張自然圖像。數(shù)據(jù)集中每個類別圖像的數(shù)量不一、大小不一，大部分尺寸約為1 000×1 000，并且各類別圖像的復雜程度也不盡相同。此外，該數(shù)據(jù)集的查詢草圖包含與之對應的33 個類別，每類10 張。不同于Flickr15k 數(shù)據(jù)集，TU-Berlin 數(shù)據(jù)集為第一個大型草圖數(shù)據(jù)集，相對簡單。TU-Berlin 數(shù)據(jù)集涵蓋書桌、斑馬、手表、網(wǎng)球拍等在內的總共250 個不同的常見物體的圖像類別，其中每類80 張尺寸均為1 111×1 111 的手繪草圖。圖4 給出了兩個數(shù)據(jù)集的部分圖像示例。

圖4 數(shù)據(jù)集部分圖像類別示例

3.2 評價指標

在草圖檢索領域，常用的評價指標有查準率（Precision）、召回率（Recall）、平均檢索精度（mean Average Precision，mAP）等。一次檢索后，與待檢測圖像相似的圖像數(shù)量占檢測出圖像總數(shù)量的比值即為檢索準確率，多次檢索準確率的均值即為mAP；與待檢測圖像相似的圖像數(shù)量占該類別圖像數(shù)量的比值即為召回率。計算公式分別如（6）、（7）、（8）所示。

其中，Precision 表示檢索準確率，TP 表示應檢索的圖像數(shù)量，F(xiàn)N 表示不應檢索的圖像數(shù)量，F(xiàn)P 表示錯檢測的圖像數(shù)量，n 表示檢索次數(shù)。

3.3 實驗流程

本文主要基于Flickr15k 數(shù)據(jù)集對HOG 特征、AlexNet 網(wǎng)絡模型和全連接融合模塊的參數(shù)進行優(yōu)化，待得到優(yōu)化后的模型后，對Flickr15k 與TUBerlin 兩類數(shù)據(jù)進行檢索實驗。整個實驗流程如下：

（1）自然圖像草圖化

采用Canny 算子對Flickr15k 數(shù)據(jù)集中的自然圖像進行草圖化，其中本文Canny 算子參的高低閾值分別設置為150 和50。

（2）HOG 特征獲取

將Flickr15k 數(shù)據(jù)集中草圖化的自然圖像作為訓練集，草圖作為測試集，分別提取出HOG 特征，利用PCA 降維到4096 維，通過SVM 分類器的分類結果調整HOG 參數(shù)。由于本文重點不是獲取最優(yōu)HOG 特征，因此在獲得有效的分類結果時即可停止，即在本文中，分類結果達到84.71%時停止，此時獲得HOG 參數(shù)為block（16，16）、cell（8，8）、bin 數(shù)目為9。

（3）深度特征獲取

基于原始的AlexNet 網(wǎng)絡模型，類似于流程（2），將Flickr15k 數(shù)據(jù)集中草圖化的自然圖像作為訓練集，草圖作為測試集，訓練和優(yōu)化AlexNet網(wǎng)絡，如圖5 所示。在大約50 次迭代后網(wǎng)絡分類準確率穩(wěn)定在90%以上；在大約150 次迭代后，訓練損失穩(wěn)定在0.2 以下，網(wǎng)絡最終趨于收斂。本文將獲取倒數(shù)第2 個全連接層輸出的4096 維向量作為圖像的深度特征。

圖5 AlexNet 網(wǎng)絡訓練過程

（4）全連接非線性融合

將HOG 降維特征和深度特征作為全連接融合模塊的輸入，該模塊由若干全連接層組成。本文為了簡化分析，全連接融合模塊分別設置為單層全連接層、兩層全連接層和三層全連接層，最后連接到分類層，以獲取分類結果，數(shù)據(jù)集類似于流程（2），優(yōu)化全連接融合模塊，將其獲得的輸出作為最終的圖像特征表示。

（5）相似性度量

利用余弦距離，計算出待檢索草圖與數(shù)據(jù)集中圖像的相似性大小，并按照從大到小的順序排序輸出，得到草圖檢索結果。

3.4 實驗結果與分析

實驗一：基于不同全連接融合模塊的草圖檢索對比

首先設置不同的全連接融合模塊結構進行對比實驗，以mAP、recall 作為評價指標，找出最有的全連接模塊結構。

設置單層全連接層、兩層全連接層和三層全連接層，記為FC1、FC2、FC3，作為三種不同的全連接融合模塊結構，每個全連接層的神經(jīng)元數(shù)量如表1所示，第一個全連接層輸入的神經(jīng)元數(shù)量為降維后的HOG 特征與深度特征的維度之和8192，經(jīng)過若干個全連接層最后連接到分類層。在不同的實驗數(shù)據(jù)集上全連接層神經(jīng)元數(shù)量通用。

表1 不同全連接層神經(jīng)元數(shù)量

其中，激活函數(shù)均選用ReLU 函數(shù)，batch_size設置為32，epoch 為200，使用交叉熵損失函數(shù)。最后分類層神經(jīng)元數(shù)量根據(jù)數(shù)據(jù)集類別數(shù)設定，對于Flickr15k 數(shù)據(jù)集，分類層神經(jīng)元數(shù)目為33。圖6為不同全連接層融合模塊結構圖。

圖6 不同全連接融合模塊結構示意圖

在Flickr15k 和TU-Berlin 兩個公開數(shù)據(jù)集上來進行草圖檢索，其中Flickr15k 數(shù)據(jù)的測試集為33 類×10 張草圖/類=330 張，如實驗流程（2）和（3）所述；TU-Berlin 數(shù)據(jù)的測試集為250 類×隨機選取10 張/類=2 500 張，首先計算基于不同全連接層融合特征得到的mAP 值，結果如表2 所示。

表2 不同全連接層融合特征的mAP 值

由表2 可知，在兩個數(shù)據(jù)集上，使用三個全連接層作為全連接融合模塊進行特征融合，最終得到的草圖檢索的mAP 最高。

接著分別繪制出基于FC1、FC2、FC3 的召回率曲線，如圖7 所示。其中橫坐標表示返回圖像數(shù)量number，縱坐標表示召回率recall。由圖7 可知，F(xiàn)C3 方法進行檢索時的曲線上升速度最快，F(xiàn)C2 次之，F(xiàn)C1 最慢。

圖7 不同全連接層融合特征的召回率曲線

結合表2 以及圖7 可知，使用三個全連接層進行特征融合得到的結果對草圖的表征效果最好。默認以下實驗中的全連接融合為基于三個全連接層融合特征的草圖檢索。

實驗二：基于單一特征與融合特征的草圖檢索對比

將基于HOG 特征的草圖檢索、基于AlexNet深度特征的草圖檢索與基于兩種特征全連接融合的草圖檢索作為對比實驗，分別記為HOG、AlexNet、HOG+AlexNet，在Flickr15k 和TU-Berlin數(shù)據(jù)集上的實驗結果如表3 所示。

表3 不同方法下草圖檢索的mAP 值

由表3 可知，在兩個數(shù)據(jù)集上，使用本文全連接特征融合方法進行草圖檢索，得到的mAP 最高。

接著繪制出基于HOG、基于AlexNet、基于本文全連接融合的草圖檢索得到的召回率曲線，如圖8 所示。其中橫坐標表示返回圖像數(shù)量，縱坐標表示召回率。由圖8 可知，本文方法進行檢索時的曲線上升速度最快。

圖8 單一特征與融合特征的召回率曲線

綜合表3 和圖8 可知，本文全連接特征融合的草圖檢索效果優(yōu)于單一特征提取的草圖檢索效果。

實驗三：基于不同特征融合方法的草圖檢索對比

為找出效果最好的特征融合方法，本文將HOG 特征作為傳統(tǒng)手工特征，與基于AlexNet 的深度特征分別進行級聯(lián)融合、權重融合以及全連接融合共3 種融合方法作為對比，如圖9 所示為不同特征融合方法對比。

圖9 不同特征融合方法

在Flickr15k 和TU-Berlin 兩個公開數(shù)據(jù)集上來進行草圖檢索，比較3 種方法得到的mAP 值，從而得出最優(yōu)的特征融合方法，結果如表4 所示。其中，通過設置不同比例進行實驗，發(fā)現(xiàn)在HOG 特征與基于AlexNet 的深度特征以0.6 與0.4 的比例進行融合時，得到的mAP 值最高。因此，在作為對比實驗的權重融合中，默認選用兩者比例為0.6∶0.4。

表4 不同特征融合算法的mAP 值

由表4 可知，無論是Flickr15k 還是TUBerlin，在兩個數(shù)據(jù)集上采用基于全連接層的非線性融合方法進行草圖檢索時，得到的mAP 均高于其他三種特征融合方法。

綜合以上實驗可知，本文基于全連接非線性融合的草圖檢索優(yōu)于單一特征的草圖檢索，優(yōu)于其他特征融合方法的草圖檢索，證實了本文方法的有效性。另外，圖10 給出了本文方法在Flickr15k 數(shù)據(jù)集上進行草圖檢索的部分結果，其中紅色框標記為錯誤的檢索結果，其錯誤的可能原因是數(shù)據(jù)集部分類別圖像數(shù)量過少，導致訓練不充分；或是本文得到的無論是手工特征還是深度特征，均是基于草圖或草圖化的自然圖像，所以不同類型的對象其輪廓信息可能相似。

圖10 全連接融合在Flickr15k 上部分類別的檢索結果

4 結束語

本文嘗試一種新的特征融合方法，將傳統(tǒng)手工特征HOG 與基于AlexNet 的深度特征進行全連接非線性融合，形成新的特征表示。該種方法綜合了傳統(tǒng)手工特征與深度特征的優(yōu)點，不僅能夠有效刻畫出圖像的邊緣輪廓信息，還能夠獲得更加接近語義層面的特征，并且通過基于全連接層的非線性融合，使得草圖檢索的性能得到了提高。與其他幾種典型特征融合方法，以及基于單一特征的草圖檢索方法進行對比實驗，實驗結果表明本文特征融合方式得到的檢索結果最優(yōu)。

下一步工作主要分為兩部分：一是在圖像預處理階段如何將自然圖像草圖化，以縮小自然圖像與草圖的域間差異；二是進一步考慮將不同類型特征分布信息融合到策略中，以提高不同特征互補性效果。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看