陳雙 何利力
摘 要:為了滿足近年來在服裝電子商務(wù)高速發(fā)展背景下急劇增長的服裝圖像分類與定位需求,實現(xiàn)對服裝圖像的目標(biāo)檢測,提出基于Faster R-CNN的服裝目標(biāo)檢測改進方法。借助殘差神經(jīng)網(wǎng)絡(luò)的特征提取能力進行服裝圖像特征提取,采用RPN網(wǎng)絡(luò)進行服裝候選區(qū)域生成,經(jīng)過RoI興趣區(qū)域池化后接入分類層與回歸層,調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),融合服裝圖像的HOG底層特征,從而針對性地實現(xiàn)對服裝圖像的目標(biāo)檢測。實驗結(jié)果表明,該方法構(gòu)建模型的平均準(zhǔn)確率為0.902,運行速度為8.9幀/秒,具有一定的實用價值。
關(guān)鍵詞:服裝圖像;深度學(xué)習(xí);目標(biāo)檢測;殘差神經(jīng)網(wǎng)絡(luò);邊緣梯度直方圖特征
DOI: 10. 11907/rjdk.191 807
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP301
文獻標(biāo)識碼:A
文章編號:1672-7800(2020)004-0042-04
Improved Method for Garment Target Detection Based on Faster R-CNN
CHEN Shuang, HE Li-li
(School of Information , Zh.ejiarzg Sci-tec Urziversity , Hangzhou 3100 1 8.China )Abstract: In order to meet the demand for the classification and positioning of clothing images under the rapid development of clothinge-commerce in recent years, the target detection of' clothing images is realized. An improved method of garment target detection basedon Faster R-CNN is proposed. The f'eature extraction ability of residual neural network is used to extract the features of clothing images.The RPN network is used to generate clothing candidate regions. After the pool of RoI interest regions, the classification lay er is ac-cessed. With the regression layer, the network structure is adjusted, and the underlying features of' the HOG of the clothing image areintegrated to achieve the pertinence of the clothing, and the target detection of the clothing image is realized. The experimental resultsshoW, that the model constructed hy this method has an average accuracy of 0.902 and an operating speed of 8.9 frames per second.Which proves the method has social practical value and academic research significance.Key Words: clothing image; deep learning; target detection ; residual neu ral network ; edge gradient histogram feature
O引言
隨著互聯(lián)網(wǎng)信息技術(shù)與服裝電子商務(wù)的迅速發(fā)展,服裝圖像數(shù)據(jù)量呈爆炸式增長,用戶對服裝圖像識別與分類的需求日漸迫切[1-2]。通過圖像目標(biāo)檢測技術(shù)得到服裝的具體類別信息與位置信息,成為當(dāng)前計算機視覺技術(shù)在服裝領(lǐng)域的應(yīng)用熱點之一。
對于一張服裝圖像,人的視覺系統(tǒng)能夠輕松感知到目標(biāo)的款式、色彩、圖案等服裝特征信息,而計算機只能識別得到服裝圖像的RGB像素矩陣。由于環(huán)境中存在服裝圖像的光照、形變、遮擋、多主體與背景等干擾因素,計算機通過對像素的抽象難以實現(xiàn)較好的識別效果[3]。傳統(tǒng)目標(biāo)檢測方法對Haar小波特征、HOG特征、LBP特征、SIFT特征等進行提取,再構(gòu)建SVM、決策樹等分類器進行檢測與定位[4-5]。該方法具有一定檢測效果,但由于具有較高的時間復(fù)雜度與較低的魯棒性,難以達到使用需求。隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域取得突破性進展,越來越多學(xué)者針對深度學(xué)習(xí)方法在服裝圖像檢測與分類方面的應(yīng)用進行研究,并取得了一定成果。
目前深度學(xué)習(xí)在目標(biāo)檢測方向的研究方法主要分為兩類,一類是基于區(qū)域的算法,如R-CNN、SPP-net、FastR-CNN、Faster R-CNN.R-FCN,另一類是基于端到端的算法,如YOLO、SSD。通常后者速度相對更快,但檢測準(zhǔn)確度不如前者。國內(nèi)外眾多學(xué)者將以上兩類方法應(yīng)用于服裝領(lǐng)域,衍生出許多針對服裝圖像的目標(biāo)檢測方法。如
陳雙,何利力:基于Faster R-CNN的服裝曰標(biāo)檢測改進方法Yamazakj1[6]通過研究服裝的褶皺特征以檢測日常生活中隨意放置的服裝位置,同時使用高層語義與低層特征信息,有效解決了服裝圖像中的遮擋問題;Pan等。[7]通過BP神經(jīng)網(wǎng)絡(luò)識別針織物,取得了良好的識別效果;Wang等。[8]針對服裝款式進行研究,得到準(zhǔn)確率更高的識別方法;香港大學(xué)的Liu等[9-10]提出一個大型公開服裝圖像數(shù)據(jù)集Deep-Fashion,該數(shù)據(jù)集含有超過80萬個具有豐富類別、屬性、Bhox、特征點等標(biāo)注信息的服裝圖像,并提出用FashionNet進行服裝特征學(xué)習(xí)。
本文主要進行以下3方面研究:①綜合相關(guān)數(shù)據(jù)集與爬蟲數(shù)據(jù),進行基本預(yù)處理后構(gòu)建具有服裝類別及服裝主體邊框標(biāo)簽的大規(guī)模服裝圖像數(shù)據(jù)集;②基于FasterR-CNN模型進行服裝圖像特征提取、區(qū)域生成、興趣區(qū)域池化與類別判定,并修改網(wǎng)絡(luò)結(jié)構(gòu),融合服裝圖像的HOG顯著性底層特征,實現(xiàn)針對服裝圖像的目標(biāo)檢測[11];③通過對比實驗設(shè)計與分析,驗證實驗?zāi)P托阅堋?/p>
1實驗方法
本文整體模型結(jié)構(gòu)基于Faster R-CNN,融合服裝圖像顯著性特征進行目標(biāo)檢測,主要分為4步:圖像特征提取、RPN區(qū)域生成網(wǎng)絡(luò)、興趣區(qū)域池化與分類回歸[12]。主要網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
主要流程如下:①將服裝圖像輸入網(wǎng)絡(luò)模型,通過卷積神經(jīng)網(wǎng)絡(luò)卷積層與池化層的交替作用進行服裝圖像特征提取,得到圖像的特征圖傳人RPN網(wǎng)絡(luò),并進行RoI池化。這里采用ResNetl01殘差神經(jīng)網(wǎng)絡(luò);②RPN網(wǎng)絡(luò)將輸入的特征圖輸出為多個矩形候選區(qū)域;③將直接傳人的特征圖結(jié)合RPN網(wǎng)絡(luò)的候選區(qū)域特征信息,通過RoI池化進行裁剪過濾,映射成7*7的特征;④根據(jù)特征白動學(xué)習(xí)服裝類別,通過Softmax分類器進行是否為目標(biāo)的二分類,并通過邊界框回歸器修正區(qū)域候選框,融合服裝的HOG特征回歸邊框,得到最終的服裝主體圖像。
Faster R-CNN損失函數(shù)計算包括:RPN進行前景與背景二分類的分類損失、RPN滑動窗口的位置回歸損失、RoI分類器損失與RoI邊界框回歸損失,以四者和作為最終損失函數(shù)進行模型反向傳播[13]。
I.I殘差神經(jīng)網(wǎng)絡(luò)
ResNet( Deep Residual Network)殘差神經(jīng)網(wǎng)絡(luò)[14]是2015年微軟研究院提出的卷積神經(jīng)網(wǎng)絡(luò),一舉取得了2015年ILSVRC比賽的冠軍。ResNet將層與層之間的傳遞學(xué)習(xí)表示為輸入與輸出差別的殘差函數(shù)學(xué)習(xí),能夠有效中和梯度爆炸問題與退化問題。
ResNet通過在不相鄰的層之間添加通路進行跨層連接,使用恒等映射將原始輸入信息直接傳輸?shù)胶竺娴木W(wǎng)絡(luò)層中。在加深網(wǎng)絡(luò)時,對于輸入x期望,輸出為H(x),學(xué)習(xí)F(x)=H(x)-x作為ResNet的殘差學(xué)習(xí)單元,改變了學(xué)習(xí)目標(biāo),從對輸出函數(shù)的學(xué)習(xí)轉(zhuǎn)換為對殘差的學(xué)習(xí),從而在將網(wǎng)絡(luò)層數(shù)據(jù)增加到152層時,仍能保持正常收斂與較好性能。相對于淺層網(wǎng)絡(luò),深層網(wǎng)絡(luò)得到的高層抽象語義更能表現(xiàn)出圖像特征,具有更佳的性能。相比于一般的CNN,ResNet使用了一種shortcut連接方式。普通CNN與ResNet基本結(jié)構(gòu)塊如圖2所示。殘差基本結(jié)構(gòu)塊可以表示為:
其中F為殘差函數(shù),h(x1)=X1為恒等映射,XI、X1+1.分別表示第,個殘差單元的輸入與輸出,f為ReLU激活函數(shù),則從,至L所學(xué)習(xí)的特征為:以鏈?zhǔn)揭?guī)則求反向傳播梯度:
可以看出,該方式能保證梯度的無損傳播,有效避免梯度消失問題,在模型中具有良好的服裝圖像特征提取效果。
1.2 RPN網(wǎng)絡(luò)
RPN(Region Proposal Networks)網(wǎng)絡(luò)是一種全卷積網(wǎng)絡(luò),通過端到端的形式進行區(qū)域生成,與分類回歸共享提取到的卷積特征,相較于之前的Selective Search與EdgeBoxes方法具有更快的提取速度[15-16]。
RPN網(wǎng)絡(luò)將殘差神經(jīng)網(wǎng)絡(luò)的共享特征圖作為輸入,以滑動窗口方式生成k個區(qū)域建議框,對應(yīng)分類層有2k個輸出,表示判斷是目標(biāo)與非目標(biāo)的概率,對應(yīng)回歸層有4k個輸出,表示k個區(qū)域建議框的位置。RPN 工作原理如圖3所示。
1.3興趣區(qū)域池化
在Faster R-CNN的RPN網(wǎng)絡(luò)后接人全連接層,通過RoI興趣區(qū)域池化層將不同大小的興趣區(qū)域轉(zhuǎn)換為固定大小。
將RPN網(wǎng)絡(luò)輸出建議與CNN網(wǎng)絡(luò)輸出特征圖輸入到RoI興趣區(qū)域池化層,以空間尺度數(shù)l/16映射回(M/16)*(N/16)的特征圖尺度,接入最大值池化層,針對將特征圖水平與豎直7等分的建議,生成7*7的輸出[17],主要過程如圖4所示。
通過RoI興趣區(qū)域池化后,對于任意尺寸大小的圖像輸入,模型后續(xù)回歸分類的全連接層具有相同維度的輸入。
1.4回歸分類
1.4.1Softmax分類器
對RoI池化得到的區(qū)域建議特征圖,經(jīng)全連接層以3*3的卷積核遍歷特征圖,采用Softmax分類器計算類別概率向量,選取概率最大的k個向量作為候選區(qū)。對于每一類別的概率,令模型參數(shù)為 ,采用歸一化方法使所有概率和為1,對于所有輸入的列向量
1.4.2邊框回歸
對于圖像目標(biāo)檢測的正確性,采用IoU(交并比),也稱為檢測評價函數(shù)進行度量。如圖5所示,IoU是指預(yù)測框(黑框)與真實框(紅框)交集與并集的比值。
通過邊框回歸器得到位置偏移量,使最終的回歸框更加精確,得到當(dāng)前的回歸坐標(biāo)值。
針對服裝的特有屬性,考慮文獻[18]中對顯著性特征的分析,調(diào)整模型并采用HOG邊緣梯度直方圖特征結(jié)合SVM分類器進行目標(biāo)檢測。主要計算圖像局部區(qū)域梯度直方圖,并統(tǒng)計區(qū)域內(nèi)的梯度直方圖構(gòu)成特征向量。采用128*144的檢測子,nhins設(shè)置為9,結(jié)合服裝目標(biāo)的顯著性檢測進行邊框修正,得到綜合考慮圖像底層HOG邊緣梯度直方圖特征與高層卷積神經(jīng)網(wǎng)絡(luò)特征的服裝圖像,輸出邊框回歸坐標(biāo)值[19]。
2實驗分析
2.1實驗環(huán)境與預(yù)處理
2.1.1 實驗環(huán)境
處理器:Intel Core i5-9400F@6x 4.1GHz。
顯卡:GeForce GTX 1660 Ti。
內(nèi)存:16G。
操作系統(tǒng):ManjaroLinux環(huán)境。
開發(fā)環(huán)境:基于Pvthon3與PvTorch。
2.1.2 實驗數(shù)據(jù)集
綜合香港中文大學(xué)提供的大型公開服裝圖像數(shù)據(jù)集DeepFashion與FashionAI、某省服裝個性化定制協(xié)同創(chuàng)新中心項目積累的大量圖片,以及在各電子商務(wù)網(wǎng)站爬取的服裝圖像,得到總計325 870張服裝圖像。關(guān)聯(lián)對應(yīng)的服裝類別標(biāo)簽與服裝主體邊界框標(biāo)注,建立大規(guī)模服裝圖像數(shù)據(jù)集,部分圖片展示如圖6所示。
考慮日常照片中的上半身照較多,鞋子出現(xiàn)較少,將研究任務(wù)選取類別主要分為上衣、下裝、裙子3大類,再細(xì)分得到24個服裝類別標(biāo)簽如表l所示。對沒有標(biāo)注的圖像進行人工服裝類別與目標(biāo)框標(biāo)注,標(biāo)注圖像對應(yīng)的類別與邊框。參考PASCAL VOC 2007數(shù)據(jù)集格式,生成對應(yīng)的XML文件。
對于建立的大規(guī)模服裝圖像數(shù)據(jù)集,將數(shù)據(jù)集隨機分成3批,采用20萬張作為訓(xùn)練集,用來進行模型訓(xùn)練,6萬張作為驗證集,用來進行參數(shù)調(diào)整,得到最佳模型參數(shù),其余部分作為測試集,用來進行模型評價[20]。
2.1.3預(yù)處理
對于實驗數(shù)據(jù)集中的服裝圖像,為減少圖像冗余信息,需進行預(yù)處理,主要進行去均值與歸一化。
去均值是指消除圖像每個數(shù)據(jù)點的平均亮度值,將輸入樣本的中心定位于坐標(biāo)系原點,以去除維度對樣本的影響。對于 共m個輸入樣本,維數(shù)為 為,樣本圖像像素平鋪后的i個像素,則對于該像素而言,使該點像素變?yōu)?。歸一化是將像素點除以255,歸一到[O,1]區(qū)間,統(tǒng)一各維度取值范圍。
2.2實驗分析
2.2.1 目標(biāo)檢測評價參數(shù)
對于目標(biāo)檢測模型,通常采用能綜合考慮精確度(Pre-cision)與召回率(Recall)的平均準(zhǔn)確率均值(mAP,MeanAverage Precision)評價模型。AP是指對某一類別識別的平均準(zhǔn)確率,mAP則可衡量對所有類別的識別效果。mAP在0-1之間,該值越大,表示模型檢測效果越好。計算公式如下:
對于實驗?zāi)P停琺AP值為0.902,具有較好的檢測效果。
2.2.2運行速度
采用FPS(Frame Per Second,每秒幀率),即模型每秒處理圖像的數(shù)量描述模型運行速度。在本實驗的硬件環(huán)境中,模型對數(shù)據(jù)集的FPS為8.9幀/秒,即一秒能夠完成對8.9張圖像的目標(biāo)檢測,具有較快的檢索速度。
2.3對比實驗設(shè)計
考慮采用不同卷積神經(jīng)網(wǎng)絡(luò)進行特征提取,并進行模型檢測效果比較,得到不同模型性能對比如表2所示。
實驗結(jié)果表明,總體而言,Resnetl01與Densenet201的特征提取效果更好,但Densenet201由于深度過大,模型過于復(fù)雜,耗時遠(yuǎn)超過其它模型,因此本文選取的Resnetl01具有最佳的綜合性能。
3 結(jié)語
本文提出一種針對服裝圖像的目標(biāo)檢測方法,借助殘差神經(jīng)網(wǎng)絡(luò)的特征提取能力進行服裝圖像特征提取,通過RPN網(wǎng)絡(luò)進行候選區(qū)域生成,調(diào)整Faster R-CNN網(wǎng)絡(luò)模型,融合服裝的高層卷積特征與底層HOG特征,從而有效提高了服裝目標(biāo)的檢測準(zhǔn)確率,并具有較快的處理速度。但由于數(shù)據(jù)集中的服裝圖像目標(biāo)一般為單個,缺少對多目標(biāo)、多類別的魯棒性,未來考慮從該方面出發(fā),對服裝圖像目標(biāo)檢測作更深入的研究。
參考文獻:
[1]王潛.基于卷積神經(jīng)網(wǎng)絡(luò)的服裝分類與目標(biāo)檢測研究[D].武漢:武漢理工大學(xué),2017.
[2]蘭麗服裝圖像自動標(biāo)注方法研究[D].北京:北京服裝學(xué)院,2017.
[3]張振煥,周彩蘭,梁媛.基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法[J].計算機工程與科學(xué),2018,40(2):354-360.
[4]劉鵬飛視頻監(jiān)控場景中人數(shù)統(tǒng)計方法的研究與應(yīng)用[D].成都:
電子科技大學(xué),2017.
[5]黃凱奇,陳曉棠,康運鋒,等智能視頻監(jiān)控技術(shù)綜述[J].計算機學(xué)報,2015 .38(6): 1093-1118.
[6]YAMAZAKI K. INABA M. A cloth detection method based on image
wrinkle feature for dailv assistive robots[J].MVA,2013.
[7]PAN R. GAO W,LIU J, et al. Automatic recognition ofWoven fabricpattern based on image processing and BP neural network[J] Journalof the Textile Institute, 2011,102(1):19-30.
[8]WANG N,AI H Z,TANC F. Who hlockswho: simultaneous segmenta-tion of occluded ohjects FJl. Journal of Cnmputer Science and Tech-nology, 2013, 28(5): 890-906.
[9]LIU Z. YAN S,LLO P. et al. Fashion landmark detection in the wild[C]. European Conference on Cnmputer Vision, 2016.
[10]LIU Z, LUO P, QIU S,et al. Deepfashion: powering rohust clothesrecngnition and retrievalM-ith rich annotations[C] Computer Vision&Pattern Recognition, 20 1 6.
[II]紀(jì)娟,秦珂,楊若瑜,基于HOG和幾何特征的服裝細(xì)節(jié)要素識別與分類[J].圖學(xué)學(xué)報,2016(1):84-90.
[12]曹詩雨,劉躍虎,李辛昭.基于Fast R-CNN的車輛目標(biāo)檢測[J].中國圖象圖形學(xué)報,2017,22(5):671-677.
[13]王林,張鶴鶴Faster R-CNN模型在車輛檢測中的應(yīng)用[J].計算機應(yīng)用,2018,38( 3):666-670.
[14]HE K, ZHANC X. REN S, et al. Deep residual learniW for image rec-ognition[C]. Cnmputer Vision and Pattern Recognition(CVPR), 2015.
[15]CHEN Y P, LI Y. WANG G.An enhanced region propnsal networkfor ohject detection using deep learning method[J]. PloS one, 201 8.
[16] 殷文斌卷積神經(jīng)網(wǎng)絡(luò)在遙感目標(biāo)識別中的應(yīng)用研究[D].北京: 中國科學(xué)院大學(xué),2017.
[17]楚翔宇.基于深度學(xué)習(xí)的交通視頻檢測及車型分類研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[18]娜黑雅顯著區(qū)域檢測及其在服裝檢索中的應(yīng)用[D].青島:中國石油大學(xué)(華東),2014.
[19]何妮.結(jié)合顯著性目標(biāo)檢測與圖像分割的服飾提取算法研究及實現(xiàn)[D]成都:西南交通大學(xué),2015.
[20]徐勝,昊新娟基于多示例學(xué)習(xí)的圖像檢索方法[J].信息技術(shù),2014(7):106-110
(責(zé)任編輯:黃?。?/p>
收稿日期:2019-06-03
基金項目:浙江省科技廳(重大)項目(2015C03001)
作者簡介:陳雙(1994-),男,浙江理工大學(xué)信息學(xué)院碩士研究生,研究方向為人工智能與機器學(xué)習(xí)、大數(shù)據(jù)技術(shù)與應(yīng)用;何利力
(1966-),男,博士,浙江理工大學(xué)信息學(xué)院教授,研究方向為圖形圖像、人機交互、制造業(yè)信息化、企業(yè)智能、數(shù)據(jù)庫。