趙慶北 元昌安
【摘 要】文章提出了一種基于深度學(xué)習(xí)的MSSD(Modified Single Shot multibox Detector)目標(biāo)檢測方法。文章闡述了SSD方法的模型與工作原理,SSD方法采用多尺度的特征圖預(yù)測物體,使用具有較大感受野的高層特征圖預(yù)測大物體,具有較小感受野的低層特征圖預(yù)測小物體。使用的低層網(wǎng)絡(luò)的特征圖預(yù)測小物體時(shí),由于缺乏高層語義特征,所以導(dǎo)致SSD對小物體的檢測效果較差。文章提出了一種MSSD模型,把原有的VGG網(wǎng)絡(luò)替換為深度殘差網(wǎng)絡(luò),采用了特征金字塔網(wǎng)絡(luò)模塊對高層語意信息和低層細(xì)節(jié)信息融合,并通過1 000張圖像數(shù)據(jù)集測試,對比MSSD方法與SSD方法在目標(biāo)檢測上的物體檢索能力與檢測精度。結(jié)果表明,MSSD方法比SSD方法準(zhǔn)確率高、速度快。
【關(guān)鍵詞】MSSD;SSD;目標(biāo)檢測;特征金字塔網(wǎng)絡(luò)
【中圖分類號(hào)】TP391 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2018)05-0088-05
0 引言
伴隨著計(jì)算機(jī)硬件與軟件的快速發(fā)展,以及近幾年的人工智能、無人駕駛汽車[20]、智慧交通、人臉識(shí)別等技術(shù)在諸多方面的應(yīng)用,都無疑要用計(jì)算機(jī)對運(yùn)動(dòng)的目標(biāo)實(shí)時(shí)地檢測跟蹤,使得目標(biāo)檢測現(xiàn)在變得越來越重要。目標(biāo)檢測一直是計(jì)算機(jī)視覺的基礎(chǔ)問題,傳統(tǒng)的目標(biāo)檢測方法都是區(qū)域選擇、提取特征、分類回歸。例如,基于AdaBoost+Haar的人臉檢測算法[1]、梯度方向直方圖(Histogram of oriented gradient,HOG)特征[2]、構(gòu)造分類器[3]、協(xié)方差描述子[4]、CENTRIST特征(census transform histogram)[5]、DPM(Deformable Part Model,DPM)[6]。
云計(jì)算時(shí)代來臨后,目標(biāo)檢測算法大家族主要?jiǎng)澐譃閮纱笈上?,一個(gè)是R-CNN系為代表的如R-CNN[7]、SPP-net[8]、Fast R-CNN[9]、Faster R-CNN[10]、Mask R-CNN[11],優(yōu)點(diǎn)是準(zhǔn)確率相對高,缺點(diǎn)是速度慢;另一個(gè)則是以YOLO為代表的基于回歸方法的深度學(xué)習(xí)目標(biāo)檢測算法,如YOLO[12]、SSD[13],優(yōu)點(diǎn)是速度快,缺點(diǎn)是準(zhǔn)確率相對低。
SSD就在YOLO的主意上添加了Faster R-CNN的Anchor概念,并融合不同卷積層的特征做出預(yù)測。SSD獲取目標(biāo)位置和類別的方法跟YOLO一樣,都是使用回歸,但是YOLO預(yù)測某個(gè)位置使用的是全圖的特征,SSD預(yù)測某個(gè)位置使用的是這個(gè)位置周圍的特征,使用Faster R-CNN的anchor機(jī)制建立某個(gè)位置和其特征的對應(yīng)關(guān)系。SSD相對于其他幾種算法檢測性能相對較好。而且,可以保證實(shí)時(shí)性且準(zhǔn)確度高。
本文提出了一種改進(jìn)的SSD的目標(biāo)檢測方法MSSD, 主要用于改進(jìn)經(jīng)典SSD在目標(biāo)檢測上的不足。本文采用基于FPN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行高低層的融合并且改進(jìn)了傳統(tǒng)上采樣的結(jié)構(gòu)。將高層的語義信息融入低層網(wǎng)絡(luò)的特征信息中,豐富預(yù)測回歸位置狂和分類任務(wù)輸入的多尺度特征圖來提高檢測精度。將SSD訓(xùn)練所使用的VGG16網(wǎng)絡(luò)替換為深度殘差網(wǎng)絡(luò),優(yōu)化候選框回歸和分類任務(wù)輸入的特征圖,以提升目標(biāo)檢測能力。實(shí)驗(yàn)結(jié)果表明,該設(shè)計(jì)大大改善了對小目標(biāo)的檢測能力,這對于深度學(xué)習(xí)技術(shù)進(jìn)一步應(yīng)用于目標(biāo)檢測具有重要意義和參考價(jià)值。
1 SSD模型
SSD的架構(gòu)主要分為2個(gè)部分:一部分是位于前端的深度卷積神經(jīng)網(wǎng)絡(luò),采用的是去除分類層的圖像分類網(wǎng)絡(luò), 如VGG,用于目標(biāo)初步特征提??;另一部分是位于后端的多尺度特征檢測網(wǎng)絡(luò),是一組級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò),將前端網(wǎng)絡(luò)產(chǎn)生的特征層進(jìn)行不同尺度條件下的特征提取。SSD框架如圖1所示。
2 Modified Single Shot Model(MSSD)模型
2.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
在利用SSD模型進(jìn)行檢測圖像的過程中,該模型并沒有采用SSD原來的VGG網(wǎng)絡(luò),而是引入了深度殘差網(wǎng)絡(luò)Resnet[14]。表面Resnet可以解決隨著網(wǎng)絡(luò)加深,準(zhǔn)確率下降的問題,彌補(bǔ)了SSD模型的缺陷,提高了模型的檢測速度和精度。
2.1.1 使用深度殘差網(wǎng)絡(luò)ResNet101代替VGG
本文的第一個(gè)修改是使用ResNet101網(wǎng)絡(luò)代替原始SSD中使用的VGG基礎(chǔ)網(wǎng)絡(luò),本文使用的來自文獻(xiàn)[14]的ResNet101網(wǎng)絡(luò)。目的是提高準(zhǔn)確性。圖2(a)顯示了以ResNet101為基礎(chǔ)網(wǎng)絡(luò)的SSD。
MSSD的網(wǎng)絡(luò)結(jié)構(gòu)與SSD對比如圖2所示,以輸入圖像尺寸為為例,圖2(a)為SSD-ResNet101的網(wǎng)絡(luò)結(jié)構(gòu),conv3_x層和conv5_x層為原來的ResNet101中的卷積層,后面的5層是SSD擴(kuò)展卷積層,原來的SSD算法是將這7層的特征圖直接輸入到預(yù)測階段做框的回歸任務(wù)和分類任務(wù)。MSSD是將這7層特征圖拿出6層輸入到特征金字塔網(wǎng)絡(luò)模塊里,輸出修正的特征圖金字塔。在圖中越往后分辨率越高,而且包含的上下文信息越豐富,綜合在一起,使得檢測精度得以提升。最后經(jīng)預(yù)測模塊輸入給框回歸任務(wù)和分類任務(wù)做預(yù)測。
本文在conv5 x塊之后添加圖層,并預(yù)測conv3 x,conv5 x和其他圖層的分?jǐn)?shù)和框偏移量。然后增加一個(gè)額外的預(yù)測模塊,顯著提高了性能。
2.1.2 特征金字塔網(wǎng)絡(luò)
特征金字塔網(wǎng)絡(luò)模塊指的是MSSD中高層特征和低層特征的融合模塊,其基本結(jié)構(gòu)如圖3所示。
本文按照FPN的方式搭建本文的網(wǎng)絡(luò),然后加了3個(gè)BN(Batch Normalization)[16]和3個(gè)3×3卷積,這里的卷積也起到了緩沖的作用,防止梯度對主干網(wǎng)絡(luò)影響太劇烈,保證網(wǎng)絡(luò)的穩(wěn)定性。
高層的特征圖的尺寸為2H*2W*D,低層將要構(gòu)建特征金字塔網(wǎng)絡(luò)的特征圖尺寸為H*W*512,高層特征圖的通道數(shù)將會(huì)被舍棄,在特征金字塔網(wǎng)絡(luò)模塊中,卷積個(gè)數(shù)都依賴于輸入的低層特征圖的通道數(shù)。特征融合后每一個(gè)負(fù)責(zé)預(yù)測的特征層通道維度變?yōu)?12;BN操作放在卷積層和激活層之間;之前一些方法的上采樣都是通過雙線性插值來實(shí)現(xiàn)的,MSSD是通過特征金字塔網(wǎng)絡(luò)模塊來學(xué)習(xí)得到的上采樣特征圖。高層特征圖與低層特征圖在通道融合時(shí),使用了broadcast mu,即通道之間做乘法運(yùn)算;在SSD中一些網(wǎng)絡(luò)如VGG的低層特征圖需要增加正則化的操作處理,因?yàn)樗奶卣鲌D尺寸和其他層不同,如果混在一起訓(xùn)練,在實(shí)踐過程中會(huì)很難訓(xùn)練。特征有2種融合方式,一個(gè)是早期融合,然后放入分類器一起分類,另一種就是晚期融合,就是分類后再融合。如果沒有額外的處理,則2種方式是一樣的。一般來說,早期融合可以很好地利用更多特征,這個(gè)是晚期融合做不到的。但是本文發(fā)現(xiàn),如果加入了L2正則化[17],那么它們是相似的。但是做特征融合時(shí)要注意的是不同層的數(shù)據(jù)尺度是不一樣的,所以需要正則化才能融合。而且不同層的數(shù)據(jù)尺寸也不同,所以也不能夠直接融合。所以,本文使用了L2正則化。在MSSD進(jìn)行高低層特征融合時(shí)低層特征必要的時(shí)候需要增加正則化處理;訓(xùn)練時(shí)采用了3個(gè)階段:第一階段訓(xùn)練一個(gè)原始SSD模型;第二階段訓(xùn)練解卷積分支,不凍結(jié)原始SSD模型里的層;第三階段所有層一起調(diào)優(yōu)。
為了在檢測中包含更多的高級上下文,本文將預(yù)測轉(zhuǎn)移到原始SSD設(shè)置之后的一系列特征金字塔網(wǎng)絡(luò)的各層。本文實(shí)驗(yàn)中的MSSD模型建立在具有ResNet101的SSD上。增加額外的特征金字塔網(wǎng)絡(luò)層以連續(xù)增加特征圖層的分辨率。為了增強(qiáng)功能,本文采用了Hourglass模型[18]中的跳過連接思路。與隨機(jī)初始化模型相比,在ILSVRC CLS-LOC數(shù)據(jù)集[19]的分類任務(wù)上預(yù)先訓(xùn)練的模型使本文的檢測器的準(zhǔn)確度更高,收斂更快。
2.1.3 預(yù)測模塊
預(yù)測模型是在框回歸任務(wù)、分類任務(wù)之前和特征金字塔網(wǎng)絡(luò)模塊之后添加的網(wǎng)絡(luò)結(jié)構(gòu)。
預(yù)測模型結(jié)構(gòu)如圖4所示,圖4(a)為SSD使用的方法,直接提取出網(wǎng)絡(luò)中的多尺度特征圖做分類和框回歸的預(yù)測;圖4(b)為resnet殘差單元的網(wǎng)絡(luò)結(jié)構(gòu);圖4(c)為本文改進(jìn)的只含一個(gè)殘差單元的預(yù)測模型,在殘差旁路將原來的特征圖用的卷積核做處理后與網(wǎng)絡(luò)主干道的特征圖做通道間加法。
在訓(xùn)練階段,本文分為3個(gè)階段:第一階段訓(xùn)練一個(gè)原始SSD模型;第二階段訓(xùn)練解卷積分支,不凍結(jié)原始SSD模型里的層;第三階段所有層一起調(diào)優(yōu)。對比了圖4中3種預(yù)測方式的實(shí)驗(yàn)結(jié)果,最后確定采用結(jié)果圖4(c)的方式。因此,本文在預(yù)測階段,使用的是圖4(c)的方式來對特征圖做處理。
在原始的SSD中,目標(biāo)函數(shù)直接應(yīng)用于選定的特征映射,而L2歸一化層用于conv4 3層,因?yàn)樘荻却?。MS-CNN指出,改進(jìn)每個(gè)任務(wù)的子網(wǎng)絡(luò)可以提高準(zhǔn)確性。遵循這個(gè)原則,本文為每個(gè)預(yù)測層添加一個(gè)殘差塊,同時(shí)嘗試了原始的SSD方法和帶有跳躍連接的方式。
本文加這個(gè)模塊是因?yàn)镸S-CNN[15]指出提升每個(gè)子任務(wù)的表現(xiàn)可以提高準(zhǔn)確性。通過實(shí)驗(yàn)表明,圖4(c)的效果最好。
2.2 模型訓(xùn)練方法
實(shí)驗(yàn)時(shí),使用SSD模型初始化MSSD網(wǎng)絡(luò),但是對于默認(rèn)候選框選取的長寬比例,本文做了詳細(xì)的分析和改進(jìn)。為了得到PASCAL VOC2007 圖片里各個(gè)物體對應(yīng)的真實(shí)位置框的長寬比例,本文用K均值分類算法[29]對這些真實(shí)框內(nèi)區(qū)域面積的平方根作為特征做了一個(gè)聚類分析,做聚類的時(shí)候增加聚類的個(gè)數(shù)來提升聚類的準(zhǔn)確度,通過這種聚類實(shí)驗(yàn)最后確定了預(yù)測使用的默認(rèn)候選框的長寬比例為1、1.6、2和3,作為每一個(gè)特征圖的默認(rèn)候選框所使用的長寬比例。本文通過修改預(yù)測層的通道數(shù)來提高檢測速度并且設(shè)置MSSD默認(rèn)框長寬比的比例。以ResNet101為基礎(chǔ)的網(wǎng)絡(luò)最低層預(yù)測層及之后延伸出去的預(yù)測層通道數(shù)均為非常臃腫的1 024,這樣雖然map很高,但是網(wǎng)絡(luò)速度非常慢,模型大小也到了驚人的1.5 G以上。本文在實(shí)現(xiàn)過程中主要是基于實(shí)用性考慮,沒有重視網(wǎng)絡(luò),而將6層特征圖的通道數(shù)改為[1024,2048,512,256,256,128],這樣做的主要意義在于驗(yàn)證算法的普適性,觀察該算法在其他參數(shù)甚至其他網(wǎng)絡(luò)下是否同樣有效。在使用VGG16網(wǎng)絡(luò)時(shí),7層特征圖的通道數(shù)采用[512,1024,512,256,256,256,256]。本文沒有設(shè)置MSSD的默認(rèn)候選框的長寬比,仍然使用SSD的長寬比,并且減少了一些[3,1/3]的比例。
本文在caffe的框架中將SSD的基礎(chǔ)網(wǎng)絡(luò)改成ResNet101然后重新訓(xùn)練了一個(gè)新的SSD模型,以VOC2007的數(shù)據(jù)集為例,訓(xùn)練集使用的數(shù)據(jù)是VOC2007數(shù)據(jù)集,測試用的是07的測試集,訓(xùn)練時(shí)一共迭代了7k次,使用學(xué)習(xí)率為1e-3在前4k次迭代次數(shù),然后調(diào)整學(xué)習(xí)率為1e-4、1e-5再分別訓(xùn)練2k次、1k次迭代次數(shù)。然后用訓(xùn)練好的SSD模型來初始化MSSD網(wǎng)絡(luò)。
訓(xùn)練MSSD的過程分為3個(gè)階段:第一個(gè)階段訓(xùn)練一個(gè)原始的SSD模型;第二個(gè)階段只訓(xùn)練特征金字塔網(wǎng)絡(luò)模塊,并且不凍結(jié)網(wǎng)絡(luò)參數(shù)直接訓(xùn)練,添加預(yù)測模型,設(shè)置學(xué)習(xí)率為1e-3、1e-4分別迭代2k次和1k次;第三個(gè)階段對模型進(jìn)行總體調(diào)優(yōu)。
3 試驗(yàn)結(jié)果及分析
在通用的目標(biāo)檢測中,本文的目的是網(wǎng)絡(luò)能正確地分類并且能進(jìn)行精確地定位。本文用預(yù)測框的置信度來衡量分類的正確性,預(yù)測框的坐標(biāo)信息衡量定位的準(zhǔn)確性。一個(gè)比較好的目標(biāo)檢測算法應(yīng)該有比較高的置信度、高的召回率及準(zhǔn)確率。在小目標(biāo)檢測精度、檢測速度方面,本文提出的MSSD模型比傳統(tǒng)SSD模型有更好的表現(xiàn)。
為了驗(yàn)證特征金字塔網(wǎng)絡(luò)層模塊和預(yù)測模型對于檢測性能的作用,本文訓(xùn)練了一個(gè)輸入圖像為321×321的ResNet
101-SSD模型,它的map為76.4%。然后加入了不同的預(yù)測模型結(jié)構(gòu)(b)和(c),使用之后的map分別為76.9%、77.1%,效果很好。本文發(fā)現(xiàn)預(yù)測模型(c)的map是最高的,所以確定并選取只含一層殘差單元的模型結(jié)構(gòu)來做候選框回歸和分類任務(wù),并在之后的輸入為321的MSSD模型中,訓(xùn)練VOC2007的數(shù)據(jù)集,都使用預(yù)測模型(c)做實(shí)驗(yàn)。最后又調(diào)優(yōu)整個(gè)模型訓(xùn)練特征金字塔網(wǎng)絡(luò)模塊。
實(shí)驗(yàn)數(shù)據(jù)的來源也即目標(biāo)檢測圖像的來源是VOC2007數(shù)據(jù)集。實(shí)驗(yàn)工具為Quadro K4200 GPU,Xeon E5-2620 CPU;操作系統(tǒng)為Ubuntu14.04。
3.1 VOC2007數(shù)據(jù)集下目標(biāo)檢測的測試結(jié)果
為了對比MSSD與傳統(tǒng)的SSD的檢測結(jié)果,本文從VOC2007數(shù)據(jù)集中選取了1 000張圖片,分別進(jìn)行MSSD目標(biāo)檢測和傳統(tǒng)的SSD檢測,檢測了12種不同的物體,如飛機(jī)、鳥、船、瓶子、汽車、椅子、牛、狗、馬、人、盆栽、羊等類別。實(shí)驗(yàn)結(jié)果如圖5所示。
圖5左側(cè)為原始的SSD模型的檢測結(jié)果,右側(cè)為MSSD模型目標(biāo)檢測的最終結(jié)果。從圖5中可以很明顯地看出,傳統(tǒng)SSD模型不能較精確地把圖像中的目標(biāo)物體檢測出來,而MSSD可以檢測出來較多的物體,對于類別比較接近的物體,MSSD的檢測結(jié)果準(zhǔn)確性更高。之所以不能取得較好檢測結(jié)果的原因是SSD模型本身是基于深度卷積神經(jīng)網(wǎng)絡(luò)的,使用具有較大感受野的高層特征信息預(yù)測大物體,具有較小感受野的低層特征信息預(yù)測小物體。使用的低層網(wǎng)絡(luò)的特征信息預(yù)測小物體時(shí),由于缺乏高層語義特征,導(dǎo)致SSD對于小物體的檢測效果較差。而MSSD模型使用了基于上下文的融合方法,使用深度殘差網(wǎng)絡(luò),將高層的語義信息融入低層網(wǎng)絡(luò)的特征信息中,豐富預(yù)測回歸位置框和分類任務(wù)輸入的多尺度特征圖,以此來提高檢測精度。在提取出多尺度特征圖之后,提出由殘差單元組成的預(yù)測模塊,進(jìn)一步提取深度的特征輸入給框回歸任務(wù)和分類任務(wù),所以MSSD模型較傳統(tǒng)SSD模型檢測精度得到了提升。
3.2 性能提升驗(yàn)證實(shí)驗(yàn)
目標(biāo)檢測的效果經(jīng)常用mAP(mean Average Precision)和FPS(Frames Per Second)來衡量,本文計(jì)算傳統(tǒng)的SSD和MSSD的mAP和FPS,并通過mAP來評估在相同置信度閾值的條件下目標(biāo)檢測的結(jié)果。實(shí)驗(yàn)結(jié)果見表1。
從表1可以看出,MSSD與傳統(tǒng)的SSD模型相比較,MSSD在飛機(jī)、鳥類、瓶子、汽車、椅子、牛、狗、馬、人、羊的類別(除了船舶和植物)時(shí)mAP都大于傳統(tǒng)的SSD模型,并且FPS也大于傳統(tǒng)的SSD模型。而且相對于SSD321來說,本文的MSSD321模型mAP提升了1.8,F(xiàn)PS提升了3.1。所以,MSSD比傳統(tǒng)的SSD模型的精度要高。本文提出的MSSD模型,無論在檢測精度還是在檢測時(shí)間上都優(yōu)于SSD模型。
4 結(jié)語
本文闡述了經(jīng)典SSD方法的模型與工作原理,SSD方法采用多尺度的特征圖預(yù)測物體,使用具有較大感受野的高層特征信息預(yù)測大物體,具有較小感受野的低層特征信息預(yù)測小物體。使用的低層網(wǎng)絡(luò)的特征信息預(yù)測小物體時(shí),由于缺乏高層語義特征,所以導(dǎo)致SSD對于小物體的檢測效果較差?;诖耍疚奶岢隽艘环NMSSD模型,采用了特征金字塔網(wǎng)絡(luò)模塊對高層語意信息和低層細(xì)節(jié)信息進(jìn)行融合,并通過1 000張小目標(biāo)圖像數(shù)據(jù)集測試,評估和對比了MSSD方法與經(jīng)典SSD方法在目標(biāo)檢測上的物體檢索能力與物體檢測精度。結(jié)果表明:MSSD方法的mAP、FPS相比于經(jīng)典SSD方法分別提高了1.8和3.1,驗(yàn)證了所提出算法的有效性。下面將進(jìn)一步改進(jìn)其模型,增強(qiáng)其共享機(jī)制,改善其時(shí)效性,同時(shí)結(jié)合圖像全局信息進(jìn)一步提高算法的性能。
參 考 文 獻(xiàn)
[1]Zhu J,Zou H,Rosset S,et al.Multi-class Ada-Boost[J].Statistics & Its Interface,2009,2(3):349-360.
[2]Dalal N,Triggs B.Histograms of Oriented Gradie-nts for Human Detection[A].IEEE Computer Society Conference on Computer Vision & Pattern Rec-ognition[C].IEEE Computer Society,2005:886-893.
[3]Zhu Q,Yeh M C,Cheng K T,et al.Fast human detection using a cascade of histograms of oriented gradients[A].IEEE Computer Society Conference on
Computer Vision & Pattern Recognition[C].IEEE,2006:1491-1498.
[4]Tuzel O,Porikli F,Meer P.Human Detection via Classification on Riemannian Manifolds[A].IEEE Co-nference on Computer Vision & Pattern Recognition[C].IEEE,2007:1-8.
[5]Wu J,Rehg J M.CENTRIST:A Visual Descriptor for Scene Categorization[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2011,33(8):1489-1501.
[6]Felzenszwalb P,Girshick R,Mcallester D,et al.Visual object detection with deformable part models[J].2010,17(3):2241-2248.
[7]Gkioxari G,Hariharan B,Girshick R,et al.R-CNNsfor Pose Estimation and Action Detection[J].Com-puter Science,2014.
[8]He K,Zhang X,Ren S,et al.Spatial Pyramid Po-oling in Deep Convolutional Networks for Visual Re-cognition[M].Computer Vision ECCV 2014 Springer International Publishing,2014:1904-16.
[9]Girshick R.Fast R-CNN[A].IEEE International Co-nference on Computer Vision[C].IEEE Computer Society,2015:1440-1448.
[10]Ren S,He K,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[A].International Conference on Neural Information Processing Systems[C].MIT Press,2015:91-99.
[11]He K,Gkioxari G,Dollar P,et al.Mask R-CNN[A].IEEE International Conference on Computer Vision[C].IEEE,2017:2980-2988.
[12]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].Computer Science,2016.
[13]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[A].European Conferenceon Computer Vision[C].Springer,Cham,2016:21-37.
[14]He K,Zhang X,Ren S,et al.Deep Residual Le-arning for Image Recognition[A].Computer Vision and Pattern Recognition[C].IEEE,2016:770-778.
[15]Cai Z,F(xiàn)an Q,F(xiàn)eris R S,et al.A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection[J].2016:354-370.
[16]Ioffe S,Szegedy C.Batch normalization:accelerating deep network training by reducing internal covariate shift[A].International Conference on International Conference on Machine Learning[C]. JMLR.org,2015:448-456.
[17]Liu W,Rabinovich A,Berg A C.ParseNet:LookingWider to See Better[J].Computer Science,2015.
[18]Newell A,Yang K,Deng J.Stacked HourglassNetworks for Human Pose Estimation[J].2016:483-499.
[19]Russakovsky O,Deng J,Su H,et al.ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision,2014,115(3):211-252.
[20]唐科祥.淺談汽車未來發(fā)展趨勢[J].企業(yè)科技與發(fā)展,2016(4):148-151.
[責(zé)任編輯:鐘聲賢]