• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)的SSD行人檢測(cè)算法

      2020-06-09 12:20:59姜敏王力王冬冬
      軟件 2020年2期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

      姜敏 王力 王冬冬

      摘 ?要: 針對(duì)行人檢測(cè)中檢測(cè)速度慢,不能實(shí)現(xiàn)實(shí)時(shí)性檢測(cè)的問(wèn)題,提出一種改進(jìn)的SSD(Single Shot MultiBox Detector)行人檢測(cè)算法。改進(jìn)網(wǎng)絡(luò)通過(guò)調(diào)整基礎(chǔ)網(wǎng)絡(luò)中卷積層的數(shù)量,去除冗余的卷積層,降低模型復(fù)雜度,提高檢測(cè)速度;不同尺度特征圖進(jìn)行預(yù)測(cè)之前加入殘差塊,進(jìn)一步提取特征,提高準(zhǔn)確率。提取PASCAL VOC數(shù)據(jù)集中的行人圖像和INRIA數(shù)據(jù)集形成混合數(shù)據(jù)集進(jìn)行訓(xùn)練,增加模型泛化性,實(shí)驗(yàn)證明本方法擁有較高的精度和較快的速度,具有良好的泛化性,滿足實(shí)時(shí)性要求。

      關(guān)鍵詞:?行人檢測(cè);單發(fā)多框檢測(cè)器;卷積神經(jīng)網(wǎng)絡(luò);深度殘差網(wǎng)絡(luò);深度學(xué)習(xí)

      中圖分類號(hào):?TP391.4????文獻(xiàn)標(biāo)識(shí)碼:?A????DOI:10.3969/j.issn.1003-6970.2020.02.012

      【Abstract】: To solve the problem that the detection speed is too slow to realize real-time detection in pedestrian detection, an improved SSD (Single Shot Multibox Detector) pedestrian detection algorithm is proposed. By adjusting the number of convolution layers in the basic network and removing the redundant convolution layers, the complexity of the model can be reduced and the detection speed can be improved. Residual blocks are added before different scale feature maps are predicted to further extract features and improve the accuracy. The person images of PASCAL VOC dataset are combined with INRIA dataset to form a mixed dataset for training, and the generalization of the model is increased. Experiments show that the method has high accuracy and speed, good generalization and real-time requirements.

      【Key words】: Pedestrian detection; SSD; Convolutional neural network; Deep residual network; Deep learning

      0??引言

      近年來(lái),隨著深度學(xué)習(xí)在在計(jì)算機(jī)視覺(jué)領(lǐng)域的成功應(yīng)用,目標(biāo)檢測(cè)也得到了快速發(fā)展。行人檢測(cè)是通用目標(biāo)檢測(cè)中一個(gè)典型且最具挑戰(zhàn)性的問(wèn)題,受到了社會(huì)各界的廣泛關(guān)注[1]。當(dāng)前的深度學(xué)習(xí)模型在追求高精度的同時(shí),導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜化,需要高性能的硬件設(shè)備才能完成相關(guān)研究,所以構(gòu)建輕量化網(wǎng)絡(luò),可以減少模型的計(jì)算開(kāi)銷,提升檢測(cè)速度,降低硬件成本。

      行人檢測(cè)技術(shù)可以分為基于手工設(shè)計(jì)特征的方法和基于深度學(xué)習(xí)網(wǎng)絡(luò)特征的方法。手工設(shè)計(jì)特征如方向梯度直方圖(Histogram Of Oriented Gradient, HOG)、局部二值模式(Local Binary Pattern, LBP)等方法能很好的表征姿態(tài)各異尺度多變的行人特征,可變型組建模型(Deformable Part Model, DPM)更是拿下了PASCAL VOC行人檢測(cè)挑戰(zhàn)賽2006年度的冠軍。但是這類特征也有很明顯的不足,特征依賴人工設(shè)計(jì),工作量大且對(duì)設(shè)計(jì)人的經(jīng)驗(yàn)要求高,設(shè)計(jì)的特征只局限于某幾種類型,對(duì)不同環(huán)境下的檢測(cè)任務(wù)不具有普適性。深度卷積神經(jīng)網(wǎng)絡(luò)作為一種能自動(dòng)直接從原始數(shù)據(jù)中提取抽象特征的特征提取器[2],在圖像處理、語(yǔ)音識(shí)別和自然語(yǔ)言處理等領(lǐng)域取得的成就引起廣泛關(guān)注。

      基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法可分為兩階段網(wǎng)絡(luò)和單階段網(wǎng)絡(luò)。兩階段網(wǎng)絡(luò)主要有R-CNN[3]、Fast R-CNN[4]、Faster R-CNN[5]、R-FCN[6]等,此類網(wǎng)絡(luò)在檢測(cè)精度方面表現(xiàn)優(yōu)異,但是在檢測(cè)速度方面由于模型復(fù)雜度高,網(wǎng)絡(luò)參數(shù)龐大使得檢測(cè)速度緩慢。而以YOLO(You Only Look Once)[7]和SSD[8]為代表的單階段網(wǎng)絡(luò),在檢測(cè)速度上有很大的優(yōu)勢(shì),尤其是SSD網(wǎng)絡(luò)檢測(cè)精度高,實(shí)時(shí)性好。但是SSD網(wǎng)絡(luò)復(fù)雜度依然很高,不容易訓(xùn)練,對(duì)小目標(biāo)的檢測(cè)性能不佳,容易造成漏檢和誤檢。針對(duì)以上問(wèn)題,本文基于原始SSD網(wǎng)絡(luò)框架,調(diào)整基礎(chǔ)網(wǎng)絡(luò)部分的卷積層數(shù)量,減少特征的計(jì)算量,提升模型檢測(cè)速度;在特征圖進(jìn)入檢測(cè)層之前融入殘差網(wǎng)絡(luò),進(jìn)一步融合特征,提高檢測(cè)準(zhǔn)確率。

      1 ?SSD算法

      1.1 ?SSD網(wǎng)絡(luò)結(jié)構(gòu)

      SSD算法作為一種優(yōu)秀的單階段通用目標(biāo)檢測(cè)

      算法,利用多尺度的檢測(cè)特性,使其能適應(yīng)大目標(biāo)和小目標(biāo)檢測(cè)任務(wù),SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,基礎(chǔ)網(wǎng)絡(luò)部分保留了VGG-16[9]的前五組卷積層進(jìn)行淺層特征提取,隨后連接的是由VGG-16的前2個(gè)全連接層改成的卷積層即fc6層與fc7層,并額外增加4組卷積層,對(duì)淺層特征進(jìn)一步提取,新增的每一組卷積層由1?1大小的卷積核和3?3大小的卷積核組成,前者負(fù)責(zé)降通道,后者負(fù)責(zé)增通道。原始圖像經(jīng)過(guò)特征提取后,選取不同層的特征輸出進(jìn)行預(yù)測(cè),預(yù)測(cè)目標(biāo)框的位置偏移以及類別置信度,最后經(jīng)過(guò)loss層的非極大抑制(Non-Maximum Suppression, NMS)方式得到最終檢測(cè)結(jié)果。

      1.2 ?區(qū)域候選框的計(jì)算

      網(wǎng)絡(luò)中不同層次的特征圖具有不同的感受野(receptive field),即不同層次特征圖上的特征值對(duì)應(yīng)于原始圖像不同尺寸的圖像塊[10]。在不同尺度的特征圖上設(shè)置不同的縮放因子來(lái)調(diào)整區(qū)域候選框的大小,以適應(yīng)原始圖片上大小不一的目標(biāo)。假設(shè)選取個(gè)特征圖進(jìn)行預(yù)測(cè),則每個(gè)特征圖中的區(qū)域候選框的尺寸計(jì)算如下所示。

      2 ?改進(jìn)SSD算法

      2.1 ?基礎(chǔ)網(wǎng)絡(luò)部分

      SSD方法采用VGG-16作為基礎(chǔ)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)龐大,在特征提取過(guò)程中耗費(fèi)了大量時(shí)間,很大程度上增加了硬件開(kāi)銷,使檢測(cè)速度變慢,首先通過(guò)對(duì)基礎(chǔ)網(wǎng)絡(luò)部分的調(diào)整,以提高檢測(cè)實(shí)時(shí)性,調(diào)整后的網(wǎng)絡(luò)結(jié)構(gòu)表1所示。

      由表1中的參數(shù)與原始SSD的網(wǎng)絡(luò)參數(shù)對(duì)比可知,改進(jìn)的基礎(chǔ)網(wǎng)絡(luò)部分去除每一組卷積層中重復(fù)的卷積層,F(xiàn)c6和Fc7保持不變,額外增加一個(gè)卷積層Conv10,使卷積輸出的特征圖尺寸為1?1,新的每一個(gè)卷積組中只含有一個(gè)卷積層和一個(gè)池化層,在每一個(gè)卷積層后面量加入批量正則化BN(Batch Normalization)[11]層,平滑不同特征圖之間的偏差,以提高模型的魯棒性,BN層后使用非線性單元ReLU函數(shù)以加快模型的收斂。為了避免調(diào)整基礎(chǔ)網(wǎng)絡(luò)過(guò)后,特征提取不充分,模型的檢測(cè)精度受到影響,于是在作為預(yù)測(cè)輸入的特征圖進(jìn)入分類與回歸之前,加上深度殘差塊作為附加特征提取部分。

      2.2??附加特征提取部分

      深度殘差網(wǎng)絡(luò)(Resnet)[12]是2015年何凱明等人提出的由殘差塊(Resblock)堆疊而成的深度卷積神經(jīng)網(wǎng)絡(luò)模型,殘差塊有不同的結(jié)構(gòu)及其變體,這里遵循文獻(xiàn)[13]提出的關(guān)于殘差塊的設(shè)計(jì)思想,殘差塊的作用是學(xué)習(xí)高級(jí)抽象特征,而基礎(chǔ)網(wǎng)絡(luò)中包含的低級(jí)特征則在高級(jí)檢測(cè)信息中保持原封不動(dòng)。殘差塊的結(jié)構(gòu)圖如圖2所示。

      殘差塊中使用1?1大小的卷積核和3?3大小的卷積核交替連接,特征圖在第一個(gè)1?1大小卷積處進(jìn)行降維,在第二個(gè)1?1卷積處做了還原,3?3大小卷積層能很好的表示模型的淺層特征,1?1大小和3?3大小的卷積層交替連接使得卷積層的輸入輸出通道數(shù)都減小,參數(shù)數(shù)量進(jìn)一步減小,在殘差塊的層與層之間加入批量歸一化(BN)層和非線性激活函數(shù),增加特征的非線性表達(dá)。加入殘差塊可以提升SSD框架的檢測(cè)性能,解決基礎(chǔ)網(wǎng)絡(luò)輕量化帶來(lái)的精度退化問(wèn)題。

      2.3??改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)

      改進(jìn)SSD算法的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,在文獻(xiàn)[14]中為了節(jié)約計(jì)算開(kāi)銷,不。使用38?38大小的特征圖,但是會(huì)導(dǎo)致淺層特征提取不充分,所以這里與原始SSD類似,選取同樣大小的特征圖作為預(yù)測(cè)輸入,這里選取的是Conv4、Fc7、Conv7、Conv8、Conv9和Conv10,輸出尺度分別為38?38、19?19、10?10,5?5、3?3和1?1,原始圖片經(jīng)過(guò)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取后,得到的不同尺度特征圖作為殘差塊的輸入,將殘差塊輸出的特征圖送入檢測(cè)層進(jìn)行分類與回歸。

      3??實(shí)驗(yàn)分析

      3.1??數(shù)據(jù)集

      INRIA數(shù)據(jù)集是目前使用最廣泛的靜態(tài)行人檢測(cè)數(shù)據(jù)集,有正樣本和負(fù)樣本兩部分,其中正樣本共有902張圖片,614張圖片作為訓(xùn)練集,包含行人樣本2416個(gè),288張圖片作為測(cè)試集,包含行人樣本1126個(gè),圖片中的人多為站立姿勢(shì)且高度大于100像素,數(shù)據(jù)集場(chǎng)景豐富,清晰度高,標(biāo)注準(zhǔn)確。

      PASCAL VOC數(shù)據(jù)集是極具代表性的目標(biāo)檢測(cè)數(shù)據(jù)集,很多經(jīng)典算法都在該數(shù)據(jù)上完成訓(xùn)練與驗(yàn)證,數(shù)據(jù)集包含20 個(gè)檢測(cè)類別,人是20個(gè)分類中的一個(gè),所以手動(dòng)提取VOC數(shù)據(jù)集中的行人圖片參與訓(xùn)練,提高模型的泛化性。

      采用幀率(frames per second, FPS)來(lái)評(píng)估模型的檢測(cè)速度,幀率也叫每秒檢測(cè)數(shù),等于處理一張圖片耗費(fèi)的時(shí)間的倒數(shù)。

      3.3??訓(xùn)練過(guò)程

      實(shí)驗(yàn)設(shè)備配置如下,CPU為Intel i7-8700,內(nèi)存為16G,操作系統(tǒng)為64位Windows 10,GPU型號(hào)為GTX1660Ti 6G顯卡,實(shí)驗(yàn)框架為keras 深度學(xué)習(xí)開(kāi)源框架。訓(xùn)練和驗(yàn)證損失如圖4所示。

      網(wǎng)絡(luò)訓(xùn)練使用優(yōu)化算法為Adam,初始學(xué)習(xí)率為0.0001,迭代75000次。從圖4的迭代損失圖中可以看出,隨著迭代次數(shù)的增加,訓(xùn)練損失在40000到次60000之間趨于平穩(wěn)下降,并在70000次左右趨于收斂,驗(yàn)證損失在60000次左右趨于收斂。

      3.4??實(shí)驗(yàn)結(jié)果與分析

      (1)混合數(shù)據(jù)集和單一數(shù)據(jù)集使用評(píng)估

      從VOC數(shù)據(jù)集中提取的行人圖片在這里叫做VOC person,將INRIA數(shù)據(jù)集和VOC person組成混合訓(xùn)練集共同訓(xùn)練,混合數(shù)據(jù)集中的驗(yàn)證集為VOC數(shù)據(jù)集中的person 驗(yàn)證集;INRIA數(shù)據(jù)集單獨(dú)訓(xùn)練,混合數(shù)據(jù)和單一數(shù)據(jù)均在INRIA的測(cè)試集上完成模型評(píng)估。

      由表2結(jié)果可以看出,測(cè)試集在兩個(gè)模型上的平均正確分別為88.5%和90.1%,混合數(shù)據(jù)集訓(xùn)練的模型在平均正確率上較單一數(shù)據(jù)集訓(xùn)練的模型有1.6%的提升,可見(jiàn)混合數(shù)據(jù)集能提升模型的檢測(cè)性能,這與文獻(xiàn)[15]中對(duì)于混合數(shù)據(jù)集能降低行人誤檢率的結(jié)論相吻合,所以下面的實(shí)驗(yàn)在混合數(shù)據(jù)集上完成。

      (2)改進(jìn)SSD算法與原始SSD算法性能對(duì)比

      本文分別對(duì)比原始SSD算法和改進(jìn)SSD算法在混合數(shù)據(jù)集上的檢測(cè)性能,包括平均正確率和檢測(cè)速度。首先計(jì)算模型的檢測(cè)速度,隨機(jī)抽取10張圖片檢測(cè),并分別記錄在兩個(gè)模型在batchsize=1時(shí)的檢測(cè)時(shí)間,結(jié)果如表3所示。

      與表中檢測(cè)時(shí)間相對(duì)應(yīng)的幀率如圖5所示。

      從圖5中可以看出,原始SSD算法與改進(jìn)SSD算法的檢測(cè)速度在第一張圖片處相差7FPS,在第8張圖片處相差了13FPS,改進(jìn)SSD算法平均檢測(cè)速度為51.7FPS,原始SSD的檢測(cè)速度平均為41.6FPS,結(jié)合檢測(cè)精度,兩個(gè)模型在測(cè)試集上的綜合性能對(duì)比如表4所示。

      由表4可以看出,改進(jìn)SSD算法比原始SSD算法在檢測(cè)速度上平均高出10FPS,改進(jìn)SSD算法在INRIA測(cè)試集上表現(xiàn)優(yōu)異,取得了90.1%的平均正確率,但相比原始SSD算法的91.5%降低了1.4%,這是由于調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)時(shí),去除了重復(fù)的特征層,犧牲了一點(diǎn)精度換取速度的提升,使模型具有更好的實(shí)時(shí)性。

      4 ?結(jié)束語(yǔ)

      為了解決行人檢測(cè)速度慢,檢測(cè)模型復(fù)雜度高,網(wǎng)絡(luò)參數(shù)龐大的問(wèn)題,提出通過(guò)調(diào)整模型結(jié)構(gòu),刪除重復(fù)的卷積層,在卷積層之后加上BN層的改進(jìn)方法,加快模型收斂,達(dá)到提升檢測(cè)速度的效果。調(diào)整基礎(chǔ)網(wǎng)絡(luò)過(guò)后,為了避免檢測(cè)精度退化,在特征圖進(jìn)入預(yù)測(cè)層之前,加入殘差塊,對(duì)特征進(jìn)一步提取,以提高模型的檢測(cè)精度。在同一測(cè)試集上對(duì)比了單一數(shù)據(jù)集訓(xùn)練的模型和混合數(shù)據(jù)集訓(xùn)練的模型的檢測(cè)精度,混合數(shù)據(jù)集訓(xùn)練的模型檢測(cè)效果更好,能提高模型的泛化性與檢測(cè)精度。實(shí)驗(yàn)結(jié)果表明,本方法檢測(cè)速度與原始方法對(duì)比有明顯的提高,具有良好的實(shí)時(shí)性,但犧牲了一點(diǎn)精度。下一步的研究方向,是在不明顯影響速度的前提下提升模型檢測(cè)精度。

      參考文獻(xiàn)

      黃同愿, 向國(guó)徽, 楊雪姣. 基于深度學(xué)習(xí)的行人檢測(cè)技術(shù)研究進(jìn)展[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)), 2019, 33(4): 98-109.

      Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):?436.

      R. Girshick, J. Donahue, T. Darrell, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. IEEE Computer Vision and Pattern Recognition, Columbus, 2013, 580-587.

      GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440-1448.

      Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):?1137-1149.

      Dai J, Li Y, He K, et al. R-FCN: object detection via region-based fully convolutional networks [C]// Neural Information Processing Systems. 2016: 379-387.

      Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection [C]// Computer Vision and Pattern Recognition. 2016: 779-788.

      Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox?detector [C]// Proc of European Conference on Computer Vision. Springer, 2016: 21-37.

      SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]// Proceedings of International Conference on LearningRepresentations. ?[S.l.]: Computational and Biological Learning Society, 2015: 1-14.

      邢浩強(qiáng), 杜志岐, 蘇波.基于改進(jìn)SSD的行人檢測(cè)方法[J].計(jì)算機(jī)工程, 2018, 44(11):?228-233, 238.

      王華利, 鄒俊忠, 張見(jiàn), 等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的快速圖像分類算法[J].計(jì)算機(jī)工程與應(yīng)用, 2017, 53(13): 181-188.

      He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Computer Vision and Pattern Recognition. 2016: 770-778.

      Kyoungmin Lee, Jaeseok Choi, Jisoo Jeong, and Nojun Kwak. Residual features and unified prediction network for single stage detection?[EB/OL]. arXiv preprint arXiv:1707.05031, 2017. https://arxiv.org/abs/1707.05031.

      Wang R. J., Li X., Ao S. and Ling C. X. 2018 Pelee: A Real-Time Object Detection System on Mobile Devices?[EB/OL]. arXiv preprint arXiv:1804.06882. https://arxiv.org/?abs/1804.06882.

      郝旭政, 柴爭(zhēng)義. 一種改進(jìn)的深度殘差網(wǎng)絡(luò)行人檢測(cè)方法[J/OL]. 2019, 36(6). [2018-03-16]. http://www.arocmag.com/?article/02-2019-06-057.html.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
      酒泉市| 津市市| 屯门区| 安康市| 芮城县| 凉城县| 洞头县| 通海县| 故城县| 望奎县| 吉木乃县| 改则县| 鹤峰县| 泌阳县| 古田县| 塔河县| 神农架林区| 察哈| 梅河口市| 梁河县| 芦溪县| 伽师县| 呼伦贝尔市| 同仁县| 临颍县| 天水市| 林甸县| 永城市| 开远市| 深泽县| 阜南县| 普格县| 永安市| SHOW| 通江县| 垣曲县| 铜陵市| 普兰县| 壶关县| 江永县| 峨边|