一種有效的基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索算法

2018-06-05 10:15:38張春玉黃知紅

科技創(chuàng)新與應(yīng)用 2018年13期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)電子商務(wù)

張春玉黃知紅

摘要：車輛檢索是基于圖像的相似搜索的子任務(wù)，在電子商務(wù)和智能安防領(lǐng)域有著重要的實(shí)際應(yīng)用價(jià)值。文章提出了一種有效的基于卷積神經(jīng)網(wǎng)絡(luò)車輛檢索的算法。利用YOLOV2檢測算法提取圖片中的車輛位置減少背景對車輛檢索造成的影響。提出了改變訓(xùn)練集中車輛的顏色進(jìn)行數(shù)據(jù)增強(qiáng)，緩解訓(xùn)練數(shù)據(jù)集較少的問題?；谖⒄{(diào)的ResNet50網(wǎng)絡(luò)提取車輛的特征用來進(jìn)行相似匹配。在香港大學(xué)車輛數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明文中提出的算法取得了不錯(cuò)的檢索效果。

關(guān)鍵詞：車輛檢索；以圖搜圖；卷積神經(jīng)網(wǎng)絡(luò)；深度學(xué)習(xí)；電子商務(wù)

中圖分類號(hào)：TP311.5 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：2095-2945（2018）13-0006-04

Abstract： Vehicle retrieval is a sub-task of similar search based on image， which has important practical application value in the field of e-business and intelligent security. This paper presents an effective vehicle retrieval algorithm based on convolution neural network. YOLOV2 detection algorithm is used to extract the vehicle position in the image to reduce the impact of background on the vehicle retrieval. The problem of changing the color of vehicle in training concentration to enhance the data is put forward to alleviate the problem of less training data set. The ResNet50 network based on fine tuning is used to extract vehicle features for similar matching. The experimental results on the vehicle data set of the University of Hong Kong show that the proposed algorithm has achieved good retrieval results.

Keywords： vehicle retrieval； graph searching via graph； convolutional neural network； deep learning； e-business

引言

隨著國家經(jīng)濟(jì)的發(fā)展和家庭總收入的不斷增加，汽車作為一種舒適的交通工具已經(jīng)成為了一個(gè)必備的消費(fèi)需求。另外隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)步，電子商務(wù)取得了長足的發(fā)展。汽車電商平臺(tái)的出現(xiàn)為消費(fèi)者購買汽車提供了一個(gè)方便的渠道?，F(xiàn)有的大部分汽車電商平臺(tái)只提供根據(jù)關(guān)鍵字進(jìn)行指定車款信息的檢索，這樣就造成了一個(gè)潛在的問題，當(dāng)平臺(tái)用戶不知道車的具體品牌或者車款時(shí)，就很難根據(jù)關(guān)鍵字在平臺(tái)上找到想要購買的車輛信息。本文討論基于圖片的同款車檢索算法解決車輛商品檢索問題，對電商平臺(tái)的發(fā)展具有重要的發(fā)展意義。

圖像檢索是計(jì)算機(jī)視覺的一個(gè)研究領(lǐng)域，通過匹配兩幅圖像特征間的相似度進(jìn)行相似檢索。傳統(tǒng)的圖像檢索方法大部分基于類似于SIFT[1]的局部描述子和BOW[2]算法來構(gòu)建圖像的特征來進(jìn)行相似檢索，該種架構(gòu)已經(jīng)在一些特定的領(lǐng)域取得了非常好的應(yīng)用。但是由于局部特征的表征能力有限，該種算法并不能用來檢索同款車輛。

深度學(xué)習(xí)算法以其強(qiáng)大的特征表示能力，在計(jì)算機(jī)視覺的很多領(lǐng)域都取得了很好的應(yīng)用，例如目標(biāo)檢測、語音識(shí)別、人臉識(shí)別、字符識(shí)別等。近年來也有很多基于深度學(xué)習(xí)相似圖像檢索的研究，并且在某些任務(wù)上也取得了不俗成績。本文采用深度學(xué)習(xí)算法來處理相似車款檢索的問題。值得一提的是，雖然基于深度學(xué)習(xí)的圖像相似檢索方面的研究很多，但是在基于圖片的同款車檢索這個(gè)問題上的研究卻相對較少。一方面是由于該問題并沒有受到大部分人的重視，另一方面是大規(guī)模數(shù)據(jù)集的缺少。針對這些問題，本文的貢獻(xiàn)點(diǎn)可以歸結(jié)為兩點(diǎn)：

（1）提出了一種驗(yàn)證有效的基于深度學(xué)習(xí)的同款車檢索算法。

（2）提出了一種新的基于車輛顏色轉(zhuǎn)變的數(shù)據(jù)增強(qiáng)的方法。

1 車輛檢索算法

本文提出的算法架構(gòu)可以歸納為前期、中期和后期三個(gè)不同的階段。前期階段包括基于YOLOV2的車輛檢測網(wǎng)絡(luò)和基于ResNet50[4]的車款識(shí)別網(wǎng)絡(luò)的訓(xùn)練。中期階段主要是對檢索庫中的圖片進(jìn)行特征提取。后期階段是根據(jù)輸入圖片的特征進(jìn)行檢索庫中的特征匹配。

1.1 網(wǎng)絡(luò)訓(xùn)練

圖1中給出了檢測算法的網(wǎng)絡(luò)結(jié)構(gòu)。圖中I表示輸入圖片，Label（x，y，w，h，class）表示圖片中矩形框的位置和矩形框中目標(biāo)的類別，其中x，y是矩形中心點(diǎn)，w，h是矩形框的寬和高。class表示目標(biāo)的類別，由于本文只是檢測車輛因此只有一個(gè)類別class=0。另外在訓(xùn)練時(shí)候?yàn)榱四軌蚍奖闶諗?，x，y，w，h都相對于原始圖片做了歸一化處理。Loss用來表示訓(xùn)練過程中的計(jì)算得到的loss值。YOLOV2算法loss的計(jì)算主要包括三個(gè)部分，框的位置，是否包含目標(biāo)，目標(biāo)所屬的類別。由于在車輛檢測任務(wù)中目標(biāo)類別的個(gè)數(shù)為1。因此本文修改了loss的計(jì)算方式。公式（1）中給出了loss計(jì)算的數(shù)學(xué)表達(dá)式：

1表示矩形框的loss占的權(quán)重，本文設(shè)置為5。？姿2表示包含目標(biāo)的置信度的權(quán)重，本文設(shè)置為1，？姿3表示不包含目標(biāo)的置信度的權(quán)重，本文設(shè)置為0.5。另外只有在區(qū)域包含目標(biāo)的時(shí)候才會(huì)計(jì)算矩形框的loss值。

本文采用ResNet50網(wǎng)絡(luò)作為車款識(shí)別的基礎(chǔ)網(wǎng)絡(luò)。網(wǎng)絡(luò)訓(xùn)練采用遷移學(xué)習(xí)的方式，首先在ImageNet百萬數(shù)據(jù)集上進(jìn)行訓(xùn)練，然后在車款分類數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練。在數(shù)據(jù)預(yù)處理方面，提出了通過改變訓(xùn)練集車輛圖片的顏色來擴(kuò)充訓(xùn)練數(shù)據(jù)集。圖2中給出了車身顏色修改的效果圖。上面一行是輸入圖片，下面一行是經(jīng)過改變車身顏色的效果圖。車身顏色改變的方法采用了開源代碼[5]。微調(diào)訓(xùn)練的方式比較簡單，只需要修改ResNet50輸出層的神經(jīng)元的個(gè)數(shù)，在訓(xùn)練時(shí)加載預(yù)訓(xùn)練好的模型即可。

1.2 特征提取

本文通過可視化ResNet50不同層的特征以及結(jié)合在測試集上的檢索效果，最終選擇提取Layer_512_2_conv2層的特征作為車輛的特征信息。圖3中給出了特征提取的流程。I表示檢測到的車輛圖片，送入訓(xùn)練好的網(wǎng)絡(luò)做一次前向傳播，然后提取layer_512_2_conv層的特征。由于該層為卷積層，因此最后做一次max pooling 操作得到一個(gè)512維的向量f，該向量就是圖像I的特征。因此假設(shè)檢索庫中圖片數(shù)量為N。對于每一張圖片Ni，首先做一次車輛檢測（假設(shè)一張圖片只包含一輛車），然后送入網(wǎng)絡(luò)提取特征得到向量fi，最終可以得到一個(gè)N*512維的矩陣X，該矩陣就是建好的特征庫。

1.3 特征檢索

為了保證檢索的精度和速度，本文采用近鄰匹配計(jì)算特征之間的距離。本文采用歐式距離作為度量方式。因此首先對提取到的特征庫中的特征進(jìn)行歸一化。另外為了提高檢索的速度和降低內(nèi)存的開銷，本文采用PCA算法進(jìn)行特征降維。

2 實(shí)驗(yàn)和分析

本文選用Caffe作為特征提取的深度學(xué)習(xí)框架，Darknet作為車輛檢測的依賴庫。硬件環(huán)境為三塊GeForce GTX 1080ti顯卡、英特爾E5處理器、128G內(nèi)存的臺(tái)式電腦。操作系統(tǒng)為Ubuntu14.04。

2.1 數(shù)據(jù)集

本文數(shù)據(jù)集主要包含三塊：車輛檢測數(shù)據(jù)集、車款識(shí)別數(shù)據(jù)集、車輛檢索數(shù)據(jù)集。車輛檢測數(shù)據(jù)集通過人工標(biāo)注的方式收集。車款識(shí)別數(shù)據(jù)集基于香港大學(xué)車輛數(shù)據(jù)集中的監(jiān)控?cái)?shù)據(jù)集：包含281個(gè)車款類別共44483張車輛圖片。車輛檢索測試集包括車款識(shí)別測試集以及收集的50000張干擾監(jiān)控?cái)?shù)據(jù)集。從281個(gè)類別中每個(gè)類別抽取1張圖片作為測試集，剩下的和干擾數(shù)據(jù)一起作為檢索庫。表1中給出了數(shù)據(jù)集的使用情況。

2.2 網(wǎng)絡(luò)訓(xùn)練

檢測算法選用基于darknet19網(wǎng)絡(luò)結(jié)構(gòu)的YOLOV2檢測算法。從darknet官方網(wǎng)站下載訓(xùn)練網(wǎng)絡(luò)所需要的網(wǎng)絡(luò)定義cfg和保存權(quán)值的weights文件。修改cfg文件中的最后一層卷積層的輸出為30=5*（1+1+4），修改region層的classes=1，同時(shí)基于YOLOV2文中提到的改進(jìn)kmeans算法根據(jù)標(biāo)注的訓(xùn)練數(shù)據(jù)集的labels標(biāo)簽生成anchor點(diǎn)的坐標(biāo)。設(shè)置檢測網(wǎng)絡(luò)最大迭代次數(shù)為200000次，設(shè)置初始學(xué)習(xí)率為0.0001學(xué)習(xí)率下降策略為steps。由于darknet19是全卷積網(wǎng)絡(luò)結(jié)構(gòu)因此在訓(xùn)練過程中采用多尺度訓(xùn)練的方式。輸入圖片的尺寸為352、384、416、448。最終在測試集上設(shè)置IOU=0.8、thresh=0.8、nms=0.4得到的不同輸入尺寸的檢測效果如表2。表2的第一行給出了YOLO_V2算法在COCO數(shù)據(jù)集上訓(xùn)練的模型在本文測試集上的效果。從測試集上的結(jié)果可以看出，本文訓(xùn)練的車輛檢測算法在測試集上的檢測精度要明顯好于前者。

車款識(shí)別原始訓(xùn)練集一共包含38863張數(shù)據(jù)，直接基于這些數(shù)據(jù)進(jìn)行訓(xùn)練容易造成過擬合。因此采用旋轉(zhuǎn)、添加高斯噪聲、水平翻轉(zhuǎn)、車身顏色改變來進(jìn)行數(shù)據(jù)增強(qiáng)。車身顏色改變對于黑夜中的車輛效果非常的差。所以在利用車身顏色改變進(jìn)行數(shù)據(jù)增強(qiáng)之前，先根據(jù)輸入圖片的平均亮度來過濾掉夜晚的車輛圖片。設(shè)置平均亮度值低于50的為夜晚圖片，從訓(xùn)練集中過濾掉14843張圖片。通過觀察過濾后的數(shù)據(jù)集，發(fā)現(xiàn)車身顏色大部分為白色、黑色、紅色。訓(xùn)練一個(gè)車身顏色識(shí)別的網(wǎng)絡(luò)模型，把訓(xùn)練集中的每個(gè)類別中包含的白色、黑色、紅色圖片提取出來。依托訓(xùn)練的車身顏色分類模型一共提出11569張圖片，其中紅色1165張，白色3372張，黑色7032張。接下來采用基于開源代碼訓(xùn)練的圖3中展示的顏色轉(zhuǎn)換模型進(jìn)行數(shù)據(jù)增強(qiáng)。表3中給出了最終數(shù)據(jù)增強(qiáng)后的訓(xùn)練集組成。

從caffe的開源社區(qū)Model Zoo中下載預(yù)訓(xùn)練好的ResNet50網(wǎng)絡(luò)模型。修改輸出層網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)為281類，設(shè)置初始學(xué)習(xí)率base_lr=0.001，學(xué)習(xí)方式lr_policy="multistep"，momentum=0.96、weight_decay=0.0002。分別利用沒有加入顏色增強(qiáng)和加入顏色增強(qiáng)的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。前者由于數(shù)據(jù)集較少，訓(xùn)練80000次就開始出現(xiàn)欠擬合的情況，訓(xùn)練集上已經(jīng)達(dá)到了99.9%的精度，但是測試集上的精度在95%左右徘徊。當(dāng)加入顏色改變數(shù)據(jù)集之后該情況得到了明顯的緩解，訓(xùn)練100000次測試集上的準(zhǔn)確度到了97%。表4中在測試集上的檢索效果對比也說明了，加入顏色改變增強(qiáng)的有效性。

2.3 檢索時(shí)間和效果分析

檢索的時(shí)間開銷和準(zhǔn)確度是衡量算法好壞的兩個(gè)重要標(biāo)準(zhǔn)。本部分將圍繞這兩個(gè)指標(biāo)對本文算法的性能進(jìn)行詳細(xì)的分析。

表4中給出了不同檢索算法在本文測試集上的檢索精度。TopN表示前N張結(jié)果中正確結(jié)果所占的比例。實(shí)驗(yàn)結(jié)果表明基于SIFT[1]暴力匹配的方式和基于BOW[2]的方式檢索效果都比較差，這和圖1中特征匹配可視化的結(jié)果相一致。直接基于AlexNet網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上訓(xùn)練的通用特征進(jìn)行車輛檢索的效果也不夠理想。這也說明了在特定任務(wù)上進(jìn)行遷移訓(xùn)練的重要性。Our_one表示直接采用沒有加入顏色增強(qiáng)數(shù)據(jù)進(jìn)行訓(xùn)練的模型的檢索效果，Our_two是加入顏色增強(qiáng)數(shù)據(jù)的檢索效果。后者要比前者平均高約4個(gè)百分點(diǎn)，這也說明通過改變顏色增強(qiáng)能夠大幅度提高檢索的效果。Our_three是采用PCA進(jìn)行降維，特征維度降到256維的檢索效果，可以發(fā)現(xiàn)檢索效果不但沒有下降還略微有上升。特征降維，可以提高檢索的速度同時(shí)減少內(nèi)存的開銷。Our_four算法是加入本文車輛檢測算法，提取測試集上的車輛圖片進(jìn)行檢索效果。由于香港大學(xué)數(shù)據(jù)集中的測試圖片已經(jīng)不包含太多的背景信息，因此通過該方式在測試集上的效果只是略有提升。但是在實(shí)際應(yīng)用場景中，該種方式能夠極大的提高檢索的效果。

圖4中給出了部分車輛圖片的檢索效果。左邊第一列為輸入的檢索圖片，其它列為檢索出來的Top5結(jié)果。用紅色外邊框包圍的圖片表示檢索出錯(cuò)的結(jié)果。夜間圖片由于光線較差，圖片的亮度較低因此檢索的精度會(huì)下降。但是從檢索效果可以看出，輸入夜晚的圖片也有一定的概率檢索出正確的白天的圖片，反之亦然。例如第二行的第三張和第7行的第三張。

本文算法的時(shí)間開銷主要包含三個(gè)部分。車輛檢測和特征提取和近鄰匹配。檢測算法在1080ti的顯卡上當(dāng)輸入圖片大小為416*416的時(shí)間為0.011s。特征提取的時(shí)間開銷為一張圖片0.02s。特征匹配的時(shí)間開銷根據(jù)檢索庫的大小和特征維度的不同，所需要的時(shí)間開銷也不一樣。表5給出了不同量級(jí)檢索庫上512維的特征維度，特征匹配的時(shí)間開銷。根據(jù)表5給出的時(shí)間統(tǒng)計(jì)，本文算法在百萬級(jí)的圖像檢索庫中依然能夠達(dá)到秒級(jí)以內(nèi)的檢索響應(yīng)的速度。

3 結(jié)束語

本文介紹了一種基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛檢索的算法，并且提出了一種新的數(shù)據(jù)增強(qiáng)的方法。實(shí)驗(yàn)證明算法能夠取得不錯(cuò)的效果。然而，算法依然存在不足之處。例如對于夜晚圖片光線較差的情況檢索效果就不夠理想。希望在以后的研究中能夠改進(jìn)這部分的問題。

參考文獻(xiàn)：

[1]Huang J， Feris R， Chen Q， et al. Cross-Domain Image Retrieval with a Dual Attribute-Aware Ranking Network[J]. 2015：1062-1070..

[2]Lin K， Yang H F， Liu K H， et al. Rapid Clothing Retrieval via Deep Learning of Binary Codes and Hierarchical Search[J]. 2015：499-502.

[3]Redmon J， Farhadi A. YOLO9000： Better， Faster， Stronger[J]. 2016.

[4]He K， Zhang X， Ren S， et al. Deep Residual Learning for Image Recognition[J]. 2015：770-778.

[5]https：//github.com/Armour/Automatic-Image-Colorization.

[6]Jegou H， Douze M， Schmid C. Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search[M]// Computer Vision - ECCV 2008. OAI， 2008：304-317.

[7]Krizhevsky A， Sutskever I， Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems， 2012， 25（2）：2012.

[8]Yang L， Luo P， Chen C L， et al. A large-scale car dataset for fine-grained categorization and verification[J]. 2015：3973-3981.

[9]Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision， 2004， 60（60）：91-110.