基于區(qū)域與全局融合特征的以圖搜車算法

2019-10-21 08:08:31趙清利文莉黃宇恒金曉峰梁添才

現(xiàn)代信息科技 2019年12期

趙清利文莉黃宇恒金曉峰梁添才

摘 ?要：在視頻監(jiān)控場(chǎng)景中，由于車輛自身外觀的多樣性和相似性以及無約束的監(jiān)控環(huán)境，以致很難通過全局外觀特征區(qū)分不同的車輛目標(biāo)。與全局外觀特征相比較，局部區(qū)域特征更具區(qū)分能力。同時(shí)，為了兼顧算法的速度，本文提出一種基于區(qū)域與全局融合特征的以圖搜車算法。該算法分為三個(gè)階段：首先，以車輛IDs作為標(biāo)簽信息，訓(xùn)練一個(gè)車輛的全局特征網(wǎng)絡(luò);其次，加入局部區(qū)域特征網(wǎng)絡(luò)，進(jìn)而聯(lián)合訓(xùn)練局部區(qū)域特征與全局特征網(wǎng)絡(luò);在推理階段，僅采用全局特征網(wǎng)絡(luò)的特征計(jì)算車輛圖像之間的相似度。本文采用視頻監(jiān)控場(chǎng)景的圖片作為數(shù)據(jù)集進(jìn)行算法測(cè)試，結(jié)果顯示所提出的方法的Top10性能達(dá)到了91.3%，特征提取時(shí)間與單次特征比對(duì)時(shí)間分別為13.8ms 和0.0016ms，滿足了應(yīng)用需求。

關(guān)鍵詞：視頻監(jiān)控;以圖搜車;區(qū)域與全局融合特征

中圖分類號(hào)：TP391.41 ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2019）12-0001-04

Abstract：In video surveillance scenario，due to the diversity and similarity of vehicle appearance and unconstrained surveillance environment，it is difficult to distinguish different vehicles by global appearance features. Compared with global appearance features，local region features are more distinctive for vehicle retrieval. At the same time，in order to balance the speed of the algorithm，a vehicle retrieval algorithm based on regional and global fusion feature is proposed in this paper. The algorithm is divided into three stages：firstly，using vehicle IDs as the label to train a vehicles global feature network;secondly，adding a local region feature network，and then the local region feature network and the global feature network are jointly trained;in the inference stage，only using global feature networks features to calculate the similarity between different vehicle images. In this paper，the images of the surveillance video scenario are used as the data set to test the algorithm. The results showed that the performance of Top10 reached 91.3%，and the time of feature extraction and single feature comparison were 13.8ms and 0.0016ms respectively. Therefore，satisfied the application demand.

Keywords：video surveillance;vehicle retrieval;regional and global fusion feature

0 ?引 ?言

以圖搜車技術(shù)是一種跨攝像頭的車輛檢索技術(shù)，利用計(jì)算機(jī)視覺技術(shù)判斷圖像或視頻中是否存在特定車輛。以圖搜車技術(shù)廣泛應(yīng)用于停車管理、智能交通和智慧城市等領(lǐng)域[1]。

在監(jiān)控視頻場(chǎng)景中，攝像頭的視角任意性與偏色、光照與天氣的變化、車輛的尺度變化以及遮擋等，造成相同品牌、年款的車輛外觀非常類似，而同一目標(biāo)車輛的差異較大，極大地加劇了以圖搜車技術(shù)的難度。

1 ?國(guó)內(nèi)外研究現(xiàn)狀

以圖搜車技術(shù)大部分現(xiàn)有的工作主要集中在特征的設(shè)計(jì)與學(xué)習(xí)。由于監(jiān)控視頻場(chǎng)景為無約束的環(huán)境，因此傳統(tǒng)的手工設(shè)計(jì)的特征，如sift[2]特征等，對(duì)于監(jiān)控視頻場(chǎng)景不夠魯棒。隨著近年來深度學(xué)習(xí)的復(fù)興，深度卷積神經(jīng)網(wǎng)絡(luò)在行人重識(shí)別、人臉識(shí)別等應(yīng)用中取得了巨大的突破，體現(xiàn)出了深度特征巨大的優(yōu)勢(shì)。同時(shí)，由于近年來一些公共數(shù)據(jù)集的發(fā)布，如VeRi[3]等，給以圖搜車技術(shù)的研究提供了極大地方便。Liu X[3]等人提出一種基于深度學(xué)習(xí)的漸進(jìn)式方法，其利用車輛的外觀特征、車牌信息以及時(shí)空信息逐步改善車輛識(shí)別的性能。Liu H[4]等人提出一種兩分支深度卷積網(wǎng)絡(luò)分別訓(xùn)練車輛IDs和車輛子品牌。同時(shí)，也提出了一個(gè)新的距離度量損失函數(shù)coupled clusters loss用以加快網(wǎng)絡(luò)收斂和改善傳統(tǒng)的triplet loss對(duì)錨點(diǎn)選擇的敏感性。Zhou[5]等人提出了一種視角感知注意多視角推理模型用以解決多視角的車輛重識(shí)別問題。Wang[6]等人提出一種基于方向不變特征嵌入和時(shí)空正則化的方法，其首先預(yù)測(cè)車輛的20個(gè)關(guān)鍵點(diǎn)，然后根據(jù)關(guān)鍵點(diǎn)定位4個(gè)區(qū)域，最后融合4個(gè)區(qū)域的局部特征和車輛的全局特征用于車輛重識(shí)別。Liu X[7]等人提出利用4個(gè)不同的分支以獲取更具區(qū)分能力的車輛特征進(jìn)行車輛重識(shí)別。此工作與本文提出的方法有一定的相似處。然而，本文提出的方法網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)潔，且避免了車輛屬性的標(biāo)注，更能符合實(shí)際應(yīng)用需求。

雖然，前面的工作使以圖搜車的性能取得了巨大的進(jìn)步，但是仍然可以從許多方面對(duì)其進(jìn)行改進(jìn)。由于之前大部分基于深度學(xué)習(xí)的工作傾向于描述車輛的全局外觀特征，無法獲取到更具區(qū)分能力的局部區(qū)域特征，且大部分工作所提出的網(wǎng)絡(luò)都較大，不利于實(shí)際應(yīng)用。因此，本文提出一種基于區(qū)域與全局融合特征的以圖搜車算法，其采用了區(qū)域感知策略以及全局特征與局部區(qū)域特征聯(lián)合學(xué)習(xí)的策略，以獲取更具區(qū)分能力的車輛特征表示，進(jìn)而提高以圖搜車的性能。

2 ?算法流程

基于區(qū)域與全局融合特征的以圖搜車算法由全局分支與局部分支組成，且每個(gè)分支共享一部分卷積層?！叭址种А睂W(xué)習(xí)整個(gè)輸入車輛圖像的全局特征信息;“局部分支”從3個(gè)重疊的區(qū)域?qū)W習(xí)車輛的局部區(qū)域特征。在訓(xùn)練階段，首先使用“全局分支”學(xué)習(xí)車輛的整體全局特征，其次，保持“全局分支”不變，加入“局部分支”，進(jìn)而使兩個(gè)分支聯(lián)合學(xué)習(xí)車輛的全局特征和局部區(qū)域特征。在推理階段，去除“局部分支”，僅使用“全局分支”提取車輛圖像的特征。整體算法框架如圖1所示。

2.1 ?共享部分

共享部分基于ResNeXt-50[8]網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化。原始ResNeXt[8]網(wǎng)絡(luò)融合了VGG[9]網(wǎng)絡(luò)的相同結(jié)構(gòu)層的堆疊策略、ResNet[10]網(wǎng)絡(luò)的恒等映射策略以及Inception[11，12]網(wǎng)絡(luò)的split-transform-merge思想，其網(wǎng)絡(luò)的模塊結(jié)構(gòu)圖以及數(shù)學(xué)原理分別如圖2以及式（1）所示。

為了滿足應(yīng)用需求中以圖搜車的精度和速度的要求，共享部分算法的優(yōu)化主要從兩個(gè)方面著手。一是減少計(jì)算量，將ResNeXt-50的網(wǎng)絡(luò)結(jié)構(gòu)從50層裁切到27層。二是提高網(wǎng)絡(luò)的表達(dá)能力：

（1）將ResNeXt-50的第一層卷積層的卷積核大小從7×7改為5×5以降低細(xì)節(jié)信息的損失，從而提取更細(xì)節(jié)的底層特征;

（2）在每一殘差模塊中添加se[13]模塊以顯式地建模特征通道之間的相互依賴關(guān)系，以此提升對(duì)當(dāng)前任務(wù)有用的特征并抑制用處不大的特征。

2.2 ?全局分支

全局分支首先使用1×1卷積將圖1所示的block4的特征圖的特征通道壓縮至512維，以減少網(wǎng)絡(luò)的信息冗余，提高網(wǎng)絡(luò)的非線性，然后使用一層全局池化層，最后接一層全連接層用于分類。全連接層以車輛IDs為標(biāo)簽，采用Softmax Loss與Center-Loss[14]聯(lián)合監(jiān)督訓(xùn)練，以提高深度特征的區(qū)分能力，從而使類內(nèi)距離變小，類間距離增大。Softmax Loss與Center-Loss聯(lián)合損失函數(shù)如式（2）所示。

其中，LS表示Softmax Loss，LC表示Center-Loss，xi表示第i個(gè)深度特征，其屬于第yi類，Wj表示最后一層全連接層權(quán)重W的第j列，b表示偏置項(xiàng)，m表示批量的大小，n表示類別數(shù)，表示第yi類的特征中心，λ作為兩個(gè)損失函數(shù)之間的平衡。

2.3 ?局部分支

在實(shí)際應(yīng)用場(chǎng)景中，相似車輛的差異點(diǎn)主要在局部區(qū)域特征上，因此設(shè)計(jì)局部分支用于提取局部區(qū)域特征。為了增強(qiáng)特征對(duì)車輛視角變化的魯棒性，本文提出一種學(xué)習(xí)重疊區(qū)域特征的局部分支用于以圖搜車，其具體流程如下：首先，將圖1中的block4的特征圖從高度這個(gè)維度按照從上到下的順序分成3個(gè)重疊的局部區(qū)域，每一個(gè)局部區(qū)域?qū)?yīng)車輛不同的部分，F(xiàn)t基本對(duì)應(yīng)車輛的頂部以及擋風(fēng)玻璃的上半部分，F(xiàn)m基本對(duì)應(yīng)擋風(fēng)玻璃部分以及引擎蓋上中部分，F(xiàn)b基本對(duì)應(yīng)引擎蓋中下半部分以及車頭部分。然后，每一個(gè)局部區(qū)域后接兩層全連接層以產(chǎn)生每一局部區(qū)域的特征。最后，使用車輛IDs作為標(biāo)簽，以Softmax Loss作為分類監(jiān)督信號(hào)以促進(jìn)每個(gè)局部區(qū)域的特征學(xué)習(xí)。

局部分支訓(xùn)練時(shí)，使用車輛的部分區(qū)域特征作為輸入以識(shí)別車輛，此過程強(qiáng)制網(wǎng)絡(luò)提取每一個(gè)局部區(qū)域有識(shí)別力的細(xì)節(jié)特征，進(jìn)而達(dá)到提高以圖搜車性能的目的。

2.4 ?訓(xùn)練與測(cè)試

2.4.1 ?訓(xùn)練

基于區(qū)域與全局融合特征的以圖搜車算法采用多個(gè)分類任務(wù)聯(lián)合訓(xùn)練，其總體損失函數(shù)如式（3）所示：

其中，θ代表模型參數(shù)，LG代表全局分支的損失，LR代表總的局部分支的損失，Lrt、Lrm、Lrb分別代表局部分支中的上部、中部以及下部的局部區(qū)域損失，λrt、λrm、λrb分別代表局部分支中的上部、中部以及下部的局部區(qū)域損失的權(quán)重。

采用全局分支與局部分支多任務(wù)聯(lián)合訓(xùn)練的方式，不僅讓全局分支利用了車輛圖像的結(jié)構(gòu)先驗(yàn)，同時(shí)也促進(jìn)了局部分支與全局分支互相學(xué)習(xí)，使得兩個(gè)分支都能學(xué)習(xí)到更有識(shí)別力的細(xì)節(jié)特征。

從零開始同時(shí)訓(xùn)練2個(gè)分支很難收斂，本文采用循序漸進(jìn)的方式訓(xùn)練模型。首先，訓(xùn)練全局分支;其次，保持全局分支網(wǎng)絡(luò)不變，加入局部分支網(wǎng)絡(luò)，并使用訓(xùn)練好的全局分支的權(quán)重初始化全局分支網(wǎng)絡(luò)，進(jìn)而聯(lián)合訓(xùn)練全局分支與局部分支網(wǎng)絡(luò)。

2.4.2 ?測(cè)試

以圖搜車問題是一個(gè)實(shí)例個(gè)體層面上的細(xì)粒度分類問題。而分類訓(xùn)練針對(duì)的是一種固定類別，當(dāng)輸入非固定類別的圖像時(shí)，也會(huì)被分到分類模型設(shè)置的固定類別中，導(dǎo)致識(shí)別錯(cuò)誤，不具擴(kuò)展性，因此，為增強(qiáng)模型的擴(kuò)展性，測(cè)試推理階段，本論文引入距離度量的方式計(jì)算車輛圖像之間的相似度以進(jìn)行以圖搜車[15]。具體的測(cè)試過程分成三個(gè)步驟：

（1）特征提?。禾崛【W(wǎng)絡(luò)的特征;

（2）特征比對(duì)：計(jì)算特征之間的距離，即相似度;

（3）排序：按照距離從大到小的方式進(jìn)行排序。

在本文提出的方法中，采用聯(lián)合訓(xùn)練的方式，使得全局分支的訓(xùn)練可利用車輛圖像的結(jié)構(gòu)先驗(yàn)。同時(shí)，在局部分支的幫助下，全局分支也可學(xué)習(xí)到更具識(shí)別力的特征，因此，推理階段我們僅采用全局分支提取車輛的特征，進(jìn)而采用余弦距離計(jì)算特征之間的相似度。余弦距離公式，如式（4）所示。

3 ?實(shí)驗(yàn)

3.1 ?數(shù)據(jù)集說明

為了驗(yàn)證本文提出的算法的有效性。使用自建的視頻監(jiān)控場(chǎng)景數(shù)據(jù)集進(jìn)行測(cè)試。此測(cè)試集不僅涵蓋了豐富多樣的車型（如SUV、轎車、貨車、皮卡、MPV、面包車等）、場(chǎng)景（早、中、晚、晴天、陰天、雨天等）以及角度（正面、背面以及側(cè)面），還包括遮擋以及缺失等樣本情況。本測(cè)試集總共包括26018張圖片，4562個(gè)車輛目標(biāo)。本測(cè)試集分為查詢集和檢索集兩個(gè)部分，在測(cè)試集的4562個(gè)IDs中，每個(gè)IDs選取一張圖像作為查詢集，共計(jì)4562張，剩余的21456張圖像作為檢索集。本測(cè)試集的部分實(shí)例如圖3所示。

3.2 ?實(shí)驗(yàn)細(xì)節(jié)

本文提出的方法在caffe[16]深度框架上進(jìn)行訓(xùn)練和測(cè)試。初始學(xué)習(xí)率設(shè)置為0.005，經(jīng)過10個(gè)epochs之后下降10%。Mini-batch的大小設(shè)置為128。在訓(xùn)練和測(cè)試推理階段，每張圖片的尺寸大小縮放到224pixel×224pixel。

3.3 ?實(shí)驗(yàn)結(jié)果與分析

表1中列出的本文算法的數(shù)據(jù)是在自建的視頻監(jiān)控場(chǎng)景數(shù)據(jù)集的測(cè)試結(jié)果，其余列出的數(shù)據(jù)均為VehicleID[4]數(shù)據(jù)集的large測(cè)試集上的測(cè)試結(jié)果。Large測(cè)試集總共包括19777張圖片，2400個(gè)車輛IDs。表1中，“-”表示此項(xiàng)指標(biāo)無結(jié)果數(shù)據(jù)。表2為本文算法的特征提取與特征比對(duì)速度結(jié)果。圖4為各算法性能比對(duì)圖。

從上述實(shí)驗(yàn)結(jié)果可以得出，與最新的方法進(jìn)行比較，本文算法獲得了最好的效果，雖然所使用的測(cè)試集不同，但本文所使用的視頻監(jiān)控場(chǎng)景測(cè)試集的圖片數(shù)量約為large測(cè)試集的1.32倍，車輛IDs數(shù)量約為large測(cè)試集的1.9倍，在更大的測(cè)試集上能取得更好的效果，其恰恰說明了本文算法性能的優(yōu)越性。同時(shí)，從表1與表2可以得到，本文算法的Top10準(zhǔn)確率達(dá)到了0.913，特征比對(duì)時(shí)間為13.8ms，特征比對(duì)時(shí)間為0.0016ms，滿足了應(yīng)用需求。

4 ?結(jié) ?論

為滿足實(shí)際應(yīng)用對(duì)以圖搜車算法的精度與速度的要求。本文提出一種基于區(qū)域與全局融合特征的以圖搜車算法。該算法在訓(xùn)練階段分為兩個(gè)步驟：首先，訓(xùn)練一個(gè)全局特征網(wǎng)絡(luò)。其次，保持全局特征網(wǎng)絡(luò)不變，加入局部區(qū)域特征網(wǎng)絡(luò)，并以第一步驟的權(quán)重初始化全局特征網(wǎng)絡(luò)，進(jìn)而聯(lián)合訓(xùn)練局部區(qū)域特征網(wǎng)絡(luò)與全局特征網(wǎng)絡(luò)，以促進(jìn)全局特征網(wǎng)絡(luò)也能夠?qū)W習(xí)到更具區(qū)分力的特征。推理階段，為兼顧算法的精度與速度，本文提出僅采用全局特征網(wǎng)絡(luò)的特征計(jì)算圖像之間的相似度。通過在自建的視頻監(jiān)控場(chǎng)景數(shù)據(jù)集上的評(píng)估，驗(yàn)證了本文所提方法的準(zhǔn)確性與高效性。

參考文獻(xiàn)：

[1] 劉鑫辰.城市視頻監(jiān)控網(wǎng)絡(luò)中車輛搜索關(guān)鍵技術(shù)研究 [D].北京：北京郵電大學(xué)，2018.

[2] Lowe D G.Distinctive Image Features from Scale-Invariant Keypoints [J].International Journal of Computer Vision，2004，60（2）：91-110.

[3] Liu X，Wu L，Tao M，et al.Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance [C]// European Conference on Computer Vision. Springer，Cham，2016.

[4] Liu H，Tian Y，Wang Y，et al. Deep Relative Distance Learning：Tell the Difference between Similar Vehicles [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE，2016.

[5] Zhou，Y.，Liu L，Shao，L. Vehicle Re-Identification by Deep Hidden Multi-View Inference [J].IEEE Transactions on Image Processing，2018，27（7）：3275-3287.

[6] Wang Z，Tang L，Liu X，et al. Orientation Invariant Feature Embedding and Spatial Temporal Regularization for Vehicle Re-identification [C]// 2017 IEEE International Conference on Computer Vision （ICCV）. IEEE，2017.

[7] Liu X，Zhang S，Huang Q，et al. RAM：A Region-Aware Deep Model for Vehicle Re-Identification [C]// 2018 IEEE International Conference on Multimedia and Expo （ICME）. IEEE，2018.

[8] Xie S，Ross G，Dollar P，et al. Aggregated Residual Transformations for Deep Neural Networks [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.IEEE，2017.

[9] Simonyan K，Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J].Computer Science，2014.

[10] He K，Zhang X，Ren S，et al. Deep Residual Learning for Image Recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.IEEE，2016.

[11] Szegedy C，Liu W，Jia Y，et al. Going Deeper with Convolutions [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.IEEE，2015.

[12] Szegedy C，Vanhoucke V，Ioffe S，et al.Rethinking the Inception Architecture for Computer Vision [J].Computer Science，2015.

[13] Hu J，Shen L，Albanie S，et al. Squeeze-and-Excitation Networks [J].IEEE transactions on pattern analysis and machine intelligence，2019.

[14] Wen Y，Zhang K，Li Z，et al. A Discriminative Feature Learning Approach for Deep Face Recognition [M].Computer Vision–ECCV 2016. Springer International Publishing，2016.

[15] 李熙瑩，周智豪，邱銘凱.基于部件融合特征的車輛重識(shí)別算法 [J/OL].計(jì)算機(jī)工程：1-11.https：//doi.org/10.19678/j.issn.1000-3428.0052284，2018-11-30.

[16] Berkeley Artificial Intelligence Research.Caffe is a deep learning framework made with expression [EB/OL].http：//caffe.berkeleyvision.org，2019-06-14.

作者簡(jiǎn)介：趙清利（1982-），男，漢族，河南周口人，經(jīng)理，博士研究生，研究方向：智能視頻分析、深度學(xué)習(xí);文莉（1988-），女，漢族，湖南益陽(yáng)人，算法工程師，碩士研究生，研究方向：智能視頻分析、深度學(xué)習(xí);黃宇恒（1980-），男，漢族，廣東佛山人，研發(fā)經(jīng)理，博士研究生，研究方向：視頻圖像系統(tǒng);金曉峰（1985-），男，漢族，山東濰坊人，總監(jiān)，高級(jí)工程師，博士研究生，研究方向：視頻大數(shù)據(jù);梁添才（1980-），男，漢族，廣東廣州人，院長(zhǎng)，教授級(jí)高級(jí)工程師，博士研究生，研究方向：智能視頻分析、模式識(shí)別。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于區(qū)域與全局融合特征的以圖搜車算法